Descripción
PROYECTO REAL DE LIMPIEZA DE DATOS CON PYTHON
PRÁCTICA DE PANDAS
INSTRUCTOR
Anastasia Migunova es científico de datos en Alemania y actualmente trabaja en una consultora de las cuatro grandes. Cuenta con un doctorado en Matemáticas aplicadas y es licenciada en Ingeniería Informática.
DESCRIPCIÓN DEL PROYECTO
Para la realización de esta práctica se te facilitarán dos archivos en distinto formato con información de ventas de una empresa multinacional que produce, distribuye y vende productos electrónicos en todo el mundo.
El objetivo del reto es limpiar los datos de ambos ficheros, fusionarlos y obtener una tabla única agregada en formato ancho y largo con los ingresos de 2020 y desglosada por producto, filial, sector y trimestre. Al igual que ocurre en cualquier proyecto de datos, dicha tabla resultante deberá estar lista para ser conectada o cargada en alguna de la aplicaciones para visualización y explotación de datos (Tableau o Qlik) de manera que los directivos o jefes de equipo puedan comprobar y analizar las cifras del negocio así como crear rápidamente informes y gráficos.
Junto con los dos ficheros de ventas, uno de 129000 líneas con la información de las ventas minoristas y otro de 9400 líneas con los datos de ventas de los clientes mayoristas, se incluyen cuatro archivos adicionales necesarios para obtener el “data set” final. Tu trabajo consiste en limpiar, estructurar y organizar el dato de ambas tablas, combinarlo con el resto de ficheros y calcular los ingresos totales de 2020 de acuerdo a los criterios definidos en las instrucciones.
Los ejercicios de limpieza de datos implican el tratamiento de valores nulos, caracteres indeseados, localización y eliminación de duplicados, cambios en el tipo de columna, modificación de cadenas, etc. Asimismo, tendrás que crear nuevas columnas implementando lógicas (ingeniería de datos), homogeneizar y reemplazar valores o textos a través de diccionarios, aplicar listas de comprensión con el objetivo de crear esa tabla final en base al modelo de datos requerido.
Anastasia ha desglosado el proyecto en más de 30 ejercicios o pasos de forma que puedas completarlo paso a paso. Es una práctica fantástica para aprender y practicar Pandas y acostumbrarse a manipular ficheros grandes con Python. Se trata de un proyecto real, por consiguiente, deberás realizar muchas de las tareas que realizan los analistas y científicos de datos en su día a día para poder explotar la información.
CONTENIDO DE LA DESCARGA
Recibirás un correo electrónico con un archivo ZIP. Si eres un usuario registrado, el proyecto siempre estará disponible en tu cuenta de usuario. El archivo comprimido está formado por los siguientes ficheros:
- Un PDF (8 páginas) con las instrucciones y una guía con el proyecto desglosado en 34 pasos que te servirá de guía en caso de necesitarlo.
- Seis ficheros con los datos. 4 Excels y 2 csv.
- Un cuaderno Jupyter con las soluciones y explicaciones acerca de lo que se hace en cada paso.
IMPORTANTE: es necesario tener instalado “Jupyter Notebooks” o Anaconda. Si no lo tienes, puedes descargarlo gratuitamente aquí.
MATERIAS A PRACTICAR
– Librarías: Pandas, Numpy, datetime.
– Leer e importar Excels y csv.
– Borrar, seleccionar, renombrar, filtrar columnas y filas.
– Nulos.
– Tipos de datos.
– “Groupby”.
– Gestión de duplicados.
– Convertir tablas a formato largo y ancho.
– Fechas.
– Uniones.
– Bucles (for).
– Listas y diccionarios.
– Función “apply()” con lambda.
– Listas de comprensión.
– Función “melt()”.
REQUERIMIENTOS
Se recomienda un conocimiento básico de la librería Pandas.
Valoraciones (0)
User Reviews
Solo los usuarios que hayan iniciado sesión y hayan comprado este producto pueden dejar un comentario.
Aún no hay reseñas.