Tabla de contenido
Este proyecto forma parte de la etapa Labs del curso de Data Science de la Academia Soy Henry. En esta ocasión brinda fuentes de información asociadas a las plataformas de streaming, tales como:
- Amazon Prime Video
- Disney Plus
- Hulu
- Netflix
El proyecto consiste en una ingesta de datos de diversas fuentes entregados por la cátedra, para aplicar transformaciones en los datasets que permitan realizar consultas a través de una API. En el siguiente enlace tendrás acceso al repositorio del proyecto original: Statemet Los archivos originales están disponibles en este repositorio: Datasets
La propuesta de trabajo se llevará a cabo en las siguientes etapas:
- Análisis de datos de exploración (EDA)
- Extraer-Transformar y Cargar con Python.
- Generación/Creación de una API para realizar consultas con FastAPI
- Ejecutar la API en un host local y ejecutar consultas, visualizando con Uvicorn.
- Desarrollo de Modelo con Machine Learning
- Ajuste de parámetros del modelo
- Realización de un deployment en Delta
(https://github.com/RocioAldanaMendez/Streaming_Platforms/tree/main/aseets/Arquitectura.jpg)
Como paso inicial, los datos se cargarán utilizando la biblioteca pandas. En esta instancia, se realizará un análisis exploratorio de los datos y se realizarán las transformaciones necesarias para limpiar los datos. transformaciones necesarias para la limpieza de datos. Para ver con más detalle el trabajo realizado con las ETD y ETL acceda al siguiente enlace: EDA/ETL
Para este proyecto solo se solicitaron 4 tipos de consultas.
-
Duración máxima por tipo de película (película/serie), por plataforma y por año: La solicitud debe ser: get_max_duration(año, plataforma, [min o temporada]).
-
Número de películas y series (por separado) por plataforma. La solicitud debe ser: get_count_plataform(plataforma)
-
Número de veces que se repite un género y plataforma con más frecuencia del mismo género y plataforma. La solicitud debe ser: get_listedin('género') Como ejemplo de género, puede usar 'comedia', que debería devolver un coño de 2099 para la plataforma de Amazon.
-
Actor más repetido por plataforma y año. La solicitud debe ser: get_actor(plataforma, año)
Funcionalidad 1
: Consultar película con mayor duración con filtros opcionales de Año, Plataforma y Tipo de duración.Funcionalidad 2
: Consultar cantidad de películas por plataforma con un puntaje mayor a XX en determinado año.Funcionalidad 3
: Consultar cantidad de películas por plataforma con filtro de Plataforma.Funcionalidad 4
: Consultar actor que más se repite según la Plataforma y Año.Demo
:
\## 📁 Acceso al proyecto
**Indica cómo se puede descargar o acceder al código fuente del proyecto, ya sea proyecto inicial o final**
\## 🛠️ Abre y ejecuta el proyecto
**Muestra las instrucciones necesarias para abrir y ejecutar el proyecto**
Rocío Méndez |
---|