Coder Social home page Coder Social logo

dapivei / data-product-architecture-final-project Goto Github PK

View Code? Open in Web Editor NEW
1.0 6.0 1.0 5.55 MB

Contiene la presentación del proyecto de datos realizado a propósito de la materia "Data Product Architecture": 1) Producto de datos funcional: Video de corrida final del producto de datos; 2) Presentación de "front"; 3) Entrega de documento final en repositorio; 4) Último commit del proyecto

License: BSD 2-Clause "Simplified" License

Makefile 0.31% Python 10.50% Shell 0.27% TSQL 0.28% Dockerfile 0.06% Rich Text Format 0.01% Batchfile 0.28% CSS 4.89% JavaScript 3.19% TeX 0.15% Jupyter Notebook 65.52% HTML 14.54%
nyc311 etl-pipeline clean transform ml data-product luigi-tasks api dashboard bias-fairness-metrics

data-product-architecture-final-project's People

Contributors

c1587s avatar dapivei avatar dependabot[bot] avatar dvilla88 avatar mrfranciscopaz avatar pilo1961 avatar

Stargazers

 avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar

Forkers

pilo1961

data-product-architecture-final-project's Issues

issue 1

Corregir el redme. Incluir el nuevo problema

Preprocessed - Guardar información en parquet particionado (pyspark)

En AWS actualmente para el schema preprocessed la información se guarda en formato parquet utilizando pandas, quedando toda la información comprimida en un solo archivo parquet, sin embargo, no se ha podido hacer con pyspark para comprimir un archivo en varias particiones parquet.

  • Guardar información en particiones parquet utilizando pyspark

Corregir y/o ordenar metadata

Algunos metadatos que aparecen en lista deben ser incluidos y otros deben ser organizados.

  • Faltantes (editar):

    • status obtenido directamente del task
    • tamaño de los archivos en S3 para ELT
  • Organizar los metadatos de los modelos.

    • nombre del modelo
    • hiper-parametros que incluye por default el modelo (bien sea en sklearn o en la librería a usar)

Actualizar README

  • Definir cual será el grupo de referencia, nuestro atributo protegido. ¿Cuáles serán nuestras métricas de fairness? (definirlas de acuerdo a nuestro problema)

  • Actualizar - Pruebas Unitarias.

Fronts de metadata

Tasks:

  • Generar fronts (dashboard) que puedan visualizar la metadata -información- que se está generando en nuestros pipelines.

Documentation

  • Toca revisar los cambios que hice en estos dos documentos:

ETL-Luigi Tasks

lui_tasks_S3

  • Falta revisar las gráficas e integrar en el flujo de los tasks. Te mandé link al sitio donde trabajé las gráficas por correo.

  • Quedan dos tasks pendientes:

Fetch y save de metada relacionada con la parte del extract

Fetch y save de metadata relacionada con el la parte del transform

Actualizar entorno virtual

  • Actualizar imagen en docker incluyendo instalaciones en Spark
  • Mejorar entorno para reemplazar la utilización de pipenv
  • Incluir de modo nativo la paquetería necesaria utilizada en el pipenv del proyecto en script de configuración de la EC2.

Magic loop para modelado

Pensar en la implementación de magic loop para ser ejecutado en luigi, conservando atomicidad de las tareas en el orquestador (que se ejecute una sola cosa en cada task).

  • Los tasks de modelo deben guardar todos los hiper-parametros que el modelo utiliza (incluyendo los que están por default en sklearn)
  • Si se ejecutan varios modelos a la vez, los metadatos de sus combinaciones deben quedar guardados (también sus pickles).
  • Empezar a ver implementación tanto en sklearn tradicional y también en su versión paralelizada utilizando pyspark.

Input Aequitas - Dar formato a información de predicción.

Dar formato a la información para que aequitas pueda leerla.

Notas:
La idea seria buscar en S3 los pickles de modelos que se han ejecutado para generar predicciones y a estas predicciones darles el formato correcto para correr aequitas. (Output CSV)

Pruebas unitarias - Script Python

Realizar pruebas unitarias para los niveles:

  • Clean
  • Feature

Notas:

  • Ocupar MARBLES y que cada nivel tenga 2 pruebas unitarias. (Revisar implementacion de MARBLES, documentar errores, clean y Feature)
  • Solo considerar que para feature engeering hagamos uno con PANDAS. (Seccion particular de pandas para hacer unit testing)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.