La idea de este proyecto es que a medida que avancen con los módulos puedan ir actualizando e incluyendo las nuevas herramientas que van aprendiendo, dado que están en el M1 la idea está restringida solo al uso de Python y Pandas.
Lo que se pide para este proyecto es la limpieza de los datos de los datasets entregados, su concatenación para la creación de una tabla única y limpia, y la realización de algunas que otras consultas.
No hay límite de tiempo y mucho está dejado a la creatividad de cada uno, así que no se limiten ni restringan en lo que pueden o no hacer.
Como una list to do podemos enumerar lo siguiente:
-
Carga de los distintos datasets, recomiendo explorarlos antes de cargarlos en pandas además sugiero hacer un EDA en cada uno de los datasets y aplicar lo que sea necesario antes de la concatenación.
-
Crear un id, está librado a la imaginación de cada uno.
-
Observar Nulos, verificar y merituar si pueden ser completados, inferirlos o eliminarlos.
-
Realizar las consultas específicas que se solicita, como plus, pueden crear una función que automatice la consulta de manera que solo sea necesario ingresar las variables. Como punto extra pueden crear una clase que posea todas las funciones de consulta, y que se activen con un menu de usuario.
a) Cantidad de veces que se repite un género y plataforma con mayor frecuencia del mismo. (Dificil)
b) Actor que más se repite según plataforma y año. (Dificil)
c) Cantidad de películas y series (separado) por plataforma. (Medio)
d) Máxima duración según tipo de film (película/serie), por plataforma y por año (Medio)
e) Peliculas que son exclusiva de una sola plataforma (hay que ingresar la plataforma ej. Netflix y debe retornar todas las peliculas que no aparezcan en las otras plataformas.
f) Autor o Autores que posean la mayor cantidad de peliculas filtrado por plataforma.
El código debe estar comentado, con nombre y apellido explicando y justificando las medidas tomadas. Lo más ordenado posible y llevar registro de las modificaciones hechas.