Coder Social home page Coder Social logo

adalab-project-da-promo-a-module-3-team-4's Introduction

Adalab-project-da-promo-A-module-3-team-4

En este repositorio nos vamos a encontrar con el proyecto del equipo 4 del Módulo 3 de la promo D del bootcamp de Data Analytics de Adalab. El nombre del equipo es FemmeMetrics y las integrantes somos Cassia Dafoe, Lorena Mendoza y Elisa Jiménez.

Resumen

Este proyecto se centra en en la realización de un estudio que consiste en la predicción de los aspectos que más influyen en la cantidad de bicis que se van a alquilar en un día.

Planteamiento

  • Establecemos los working agreements y designamos a la Scrum Master
  • Creamos repositorio en GitHub
  • Iniciamos el proyecto

El repositorio consta de cuatro carpetas:

datos

  • En esta carpeta nos encontraremos con 18 archivos en formato csv y pikl que hemos ido trasnformando y utilizando en nuestro modelo; junto con un archivo readme donde tenemos la descripción de nuestras columnas del dataset.

EDA

  • Detalla en dos archivos el proceso de recogida, análisis y limpieza de los datos y otro archivo para la visualización de nuestro datos:
  1. Comenzamos por entender nuestros datos, haciendo una explicación de la naturaleza de nuestros estos y decidiendo cual va a ser nuestra variable respuesta, que es la variable que vamos a querer predecir. En este caso, elegimos hacer dos modelos predictivos para dos variables respuesta por las diferencias de los patrones en los datos. Unos nos muestran el comportamiento para un tipo de cliente concreto (el más habitual) y el otro para un tipo de cliente diferente (de tipo más casual).

  2. Continuamos realizando un EDA, analizando los datos, detectando datos nulos, outliers y limpiando algunas columnas: unificación variables categóricas, cambio del tipo de dato de la columna fecha (de string a datetime), recodificación de 0 y 1 en algunas variables numéricas, que finalmente resultan ser categóricas (columnas: "días_laborales" y "festivo").

En el archivo de visualización encontraréis las gráficas de nuestros datos para tener una idea de cómo están distribuidos los mismos y sus agrupaciones.

Revisamos si queremos contar con todas nuestras variable o tenemos algunas redundantes.

preprocesamiento

  • Consta de un archivo dónde desarrollamos el siguiente proceso:
  1. Aplicamos los cambios que son necesarios, encoding, normalización y estandarización.

  2. Estudiamos las correlaciones y la independencia de nuestras variables.

  3. Ponemos en práctica el primer modelo de regresión lineal, para el cual tenemos que contar con el cumplimiento de las asunciones de normalidad, heterocedasticidad, independencia. Dado que nuestros datos no cumplen con dichas asunciones, pasamos a los siguientes modelos.

preprocesamiento_pruebas

  • En dicha carpeta tenemos visible tres archivos con las distintas pruebas que hemos realizado para poder mejorar las métricas de nuestros modelos.

modelos

  • En la carpeta modelos os encontraréis dos archivos que corresponden a los modelos de prediccón para nuestras variables respuestas elegidas.

En ellos realizamos el modelo de regresión lineal, para el cual tenemos que contar con el cumplimiento de las asunciones de normalidad, heterocedasticidad, independencia. En nuestro caso, dado que nuestros datos no cumplían las asunciones para poder realizar el modelo de regresión lineal, pasamos a utilizar dos técnicas de aprendizaje automático supervisado. Estos algoritmos van a tomar una serie de decisiones que finaliza con la predicción que estamos buscando, es decir la solución a nuestro problema. Los logaritmos utilizados son el Decision Tree y el Random Forest.

Ajustamos los modelos mencionados, con los que vamos a trabajar.

Comprobamos las métricas obtenidas en nuestros modelos.

Librerías utilizadas:

Las librerías con las que hemos trabajado en este repositorio son:

adalab-project-da-promo-a-module-3-team-4's People

Contributors

cassia-elx avatar elisada123 avatar loremecu avatar

adalab-project-da-promo-a-module-3-team-4's Issues

WORKING AGREEMENTS

  • Los Dailies serán todos los días a las 13.30 cuando tengamos sesión de trabajo y la duración será de un máximo de 10 minutos

  • Usamos Zoom para trabajar en grupo o parejas y por Slack para chat:
    La Scrum Master en Sprint 1 es: Cassia
    La Scrum Máster en Sprint 2 es: Elisa/Lorena

  • Cuando trabajamos con los archivos del repo tenemos que empezar con un git pull siempre. Cuando haya cambios avisaremos a las demás miembros del grupo para evitar conflictos de versiones.

  • Comunicación a través de Slack.

  • Empezamos trabajando las tres juntas hasta que veamos la necesidad de trabajar en parejas para ser mas eficientes.

  • Vamos a pedir ayuda cuando lo necesitemos, tener paciencia y escuchar a todas, y animarnos mucho unas a otras.

  • Comentar el código para recordar mejor y que sea de ayuda a las compis que quieran revisarlo.

  • De momento trabajaremos en las horas de clase. En caso de que veamos que es insuficiente, estableceremos horas fuera de la jornada escolar para avanzar en el proyecto.

  • Vamos a utilizar PEP 8/Zen de Python

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.