dapivei / data-product-architecture-final-project Goto Github PK

Contiene la presentación del proyecto de datos realizado a propósito de la materia "Data Product Architecture": 1) Producto de datos funcional: Video de corrida final del producto de datos; 2) Presentación de "front"; 3) Entrega de documento final en repositorio; 4) Último commit del proyecto

License: BSD 2-Clause "Simplified" License

Makefile 0.31% Python 10.50% Shell 0.27% TSQL 0.28% Dockerfile 0.06% Rich Text Format 0.01% Batchfile 0.28% CSS 4.89% JavaScript 3.19% TeX 0.15% Jupyter Notebook 65.52% HTML 14.54%

nyc311 etl-pipeline clean transform ml data-product luigi-tasks api dashboard bias-fairness-metrics

data-product-architecture-final-project's Issues

Modeling - Implementación en Luigi

Guardar pickle en S3
Guardar metadatos en RDS

Raw & Preprocessed - Validar que el pipeline ejecuta correctamente en AWS

La idea sería validar y garantizar que todo corre correctamente en Luigi hasta este punto del pipeline en AWS.

Cleanned - Implementación en Luigi

Guardar información en S3
Guardar metadatos en RDS

issue 1

Corregir el redme. Incluir el nuevo problema

Linaje de datos ETL - Generar metadatos para las tareas del pipeline.

Cleanned - EDA y Limpieza

EDA y Limpieza Notebook (Trabajar en Zepelin)
Python Script - Limpieza

Actualizar README.md

Task

Actualizar el README.md hasta la parte de modeling.

Preprocessed - Guardar información en parquet particionado (pyspark)

En AWS actualmente para el schema preprocessed la información se guarda en formato parquet utilizando pandas, quedando toda la información comprimida en un solo archivo parquet, sin embargo, no se ha podido hacer con pyspark para comprimir un archivo en varias particiones parquet.

Guardar información en particiones parquet utilizando pyspark

Pruebas unitarias - Implementacion Luigi

Implementación en Luigi:

Clean
Feature

Corregir y/o ordenar metadata

Algunos metadatos que aparecen en lista deben ser incluidos y otros deben ser organizados.

Faltantes (editar):
- status obtenido directamente del task
- tamaño de los archivos en S3 para ELT
Organizar los metadatos de los modelos.
- nombre del modelo
- hiper-parametros que incluye por default el modelo (bien sea en sklearn o en la librería a usar)

Tasks utilizando implementaciones directas en Luigi

Tratar de implementar tareas especializadas de luigi para evitar triangulación:

guardado de metadatos en rds: Copytotable
ejecución de Spark jobs (cuando sea implementados): PySparkTask.

Actualizar README

Definir cual será el grupo de referencia, nuestro atributo protegido. ¿Cuáles serán nuestras métricas de fairness? (definirlas de acuerdo a nuestro problema)
Actualizar - Pruebas Unitarias.

ML Preprocessed - Implementación en Luigi

Guardar información en S3
Guardar metadatos en RDS

Linaje de datos - Guardar metadatos en RDS de pruebas unitarias

Generar metadatos
Crear tablas para los schemas Clean y Feature
Insertar metadatos en RDS

ML Preprocessed - Feature engineering y tranformación de datos

Feature engineering y transformación de datos notebook (Trabajar en Zepelin)
Python Script - Feature engineering y transformación de datos

ML Preprocessed - Actualizar feature engeering

Agregar variable "distrito" para cumplir con el requerimiento de atributo protegido y grupo de referencia.

Actualizar python script

Fronts de metadata

Tasks:

Generar fronts (dashboard) que puedan visualizar la metadata -información- que se está generando en nuestros pipelines.

Documentation

Toca revisar los cambios que hice en estos dos documentos:

ETL-Luigi Tasks

lui_tasks_S3

Falta revisar las gráficas e integrar en el flujo de los tasks. Te mandé link al sitio donde trabajé las gráficas por correo.
Quedan dos tasks pendientes:

Fetch y save de metada relacionada con la parte del extract

Fetch y save de metadata relacionada con el la parte del transform

Actualizar entorno virtual

Actualizar imagen en docker incluyendo instalaciones en Spark
Mejorar entorno para reemplazar la utilización de pipenv
Incluir de modo nativo la paquetería necesaria utilizada en el pipenv del proyecto en script de configuración de la EC2.

Modeling - Modelado

Python Script - Modelado

Magic loop para modelado

Pensar en la implementación de magic loop para ser ejecutado en luigi, conservando atomicidad de las tareas en el orquestador (que se ejecute una sola cosa en cada task).

Los tasks de modelo deben guardar todos los hiper-parametros que el modelo utiliza (incluyendo los que están por default en sklearn)
Si se ejecutan varios modelos a la vez, los metadatos de sus combinaciones deben quedar guardados (también sus pickles).
Empezar a ver implementación tanto en sklearn tradicional y también en su versión paralelizada utilizando pyspark.

Input Aequitas - Dar formato a información de predicción.

Dar formato a la información para que aequitas pueda leerla.

Notas:
La idea seria buscar en S3 los pickles de modelos que se han ejecutado para generar predicciones y a estas predicciones darles el formato correcto para correr aequitas. (Output CSV)

Pruebas unitarias - Script Python

Realizar pruebas unitarias para los niveles:

Clean
Feature

Notas:

Ocupar MARBLES y que cada nivel tenga 2 pruebas unitarias. (Revisar implementacion de MARBLES, documentar errores, clean y Feature)
Solo considerar que para feature engeering hagamos uno con PANDAS. (Seccion particular de pandas para hacer unit testing)

Linaje de datos ETL - Variables pendientes de crear

Incluir la creación de estas variables en el código de generación de metadatos.

Log
Variables (columnas)
{Actualizar}

dapivei / data-product-architecture-final-project Goto Github PK

data-product-architecture-final-project's People

Contributors

Stargazers

Watchers

Forkers

data-product-architecture-final-project's Issues

Recommend Projects

Recommend Topics

Recommend Org