Descripción
PROYECTO REAL DE PANDAS
PRÁCTICA DE LIMPIEZA DATOS
DESCRIPCIÓN DEL PROYECTO
Para la realización de esta proyecto real de Pandas se te facilitarán dos archivos en distinto formato con información de ventas de una empresa multinacional que produce, distribuye y vende productos electrónicos en todo el mundo.
El objetivo de este práctica de Python es limpiar los datos de ambos ficheros, fusionarlos y obtener una tabla única agregada en formato ancho y largo con los ingresos de 2020 y desglosada por producto, filial, sector y trimestre. Al igual que ocurre en cualquier proyecto de datos, dicha tabla resultante deberá estar lista para ser conectada o cargada en alguna de la aplicaciones para visualización y explotación de datos (Tableau o Qlik) de manera que los directivos o responsables de equipo puedan comprobar y analizar las cifras del negocio así como crear rápidamente informes y gráficos.
Junto con los dos ficheros de ventas, uno con la información de las ventas minoristas ((129000 líneas) y otro de con los datos de ventas de los clientes mayoristas (9400 líneas), se incluyen cuatro archivos adicionales necesarios para obtener el “data set” final. Tu trabajo consiste en limpiar, estructurar y organizar el dato de ambas tablas, combinarlo con el resto de ficheros y calcular los ingresos totales de 2020 de acuerdo a los criterios definidos en las instrucciones.
Los ejercicios de limpieza de datos implican el tratamiento de valores nulos, caracteres indeseados, localización y eliminación de duplicados, cambios en el tipo de columna, modificación de cadenas, etc. Asimismo, tendrás que crear nuevas columnas implementando lógicas (ingeniería de datos), homogeneizar y reemplazar valores o textos a través de diccionarios, aplicar listas de comprensión con el objetivo de crear esa tabla final en base al modelo de datos requerido.
Ventajas del Proyecto
Anastasia ha desglosado este proyecto Python en más de 30 ejercicios de forma que puedas completarlo paso a paso. Es una tarea fantástica para aprender y practicar Pandas y acostumbrarse a manipular ficheros grandes con Python. Se trata de un proyecto real de ciencia de datos, por consiguiente, deberás realizar muchas de las tareas que realizan los analistas y científicos de datos en su día a día para poder explotar la información.
INSTRUCTOR
Anastasia Migunova es científico de datos en Alemania y actualmente trabaja en una consultora de las cuatro grandes. Cuenta con un doctorado en Matemáticas aplicadas y es licenciada en Ingeniería Informática.
CONTENIDO DE LA DESCARGA
Recibirás un correo electrónico con un archivo ZIP. La descarga siempre estará disponible en tu cuenta Practity. El archivo comprimido está formado por los siguientes ficheros:
- Un PDF (8 páginas) con las instrucciones y una guía con el proyecto desglosado en 34 pasos que te servirá de guía en caso de necesitarlo.
- Seis ficheros con los datos. 4 Excels y 2 csv.
- Un cuaderno Jupyter con el proyecto resuelto. Las soluciones incluyen explicaciones acerca de lo que se hace en cada paso.
IMPORTANTE: es necesario tener instalado “Jupyter Notebooks” o Anaconda. Si no lo tienes, puedes descargarlo gratuitamente aquí.
MATERIAS A PRACTICAR
– Librarías: Pandas, Numpy, datetime.
– Leer e importar Excels y csv.
– Borrar, seleccionar, renombrar, filtrar columnas y filas.
– Nulos.
– Tipos de datos.
– “Groupby”.
– Gestión de duplicados.
– Convertir tablas a formato largo y ancho.
– Fechas.
– Uniones.
– Bucles (for).
– Listas y diccionarios.
– Función “apply()” con lambda.
– Listas de comprensión.
– Función “melt()”.
REQUERIMIENTOS
Este proyecto real de Pandas está diseñados para estudiantes de Master o postgrados especializados en Ciencia de datos, análisis de datos o programación en Python. Se recomienda haber completado algún curso especializado en la librería Pandas y un nivel intermedio de Python.
Valoraciones (1)
1 review for Reto de Limpieza de Datos con Python
Solo los usuarios que hayan iniciado sesión y hayan comprado este producto pueden dejar un comentario.
Manolo U –
Instrucciones precisas. Muy completo, se practica todo lo necesario para manejar datos y ficheros con Pandas. Lo recomiendo