Coder Social home page Coder Social logo

datathon's Introduction

PROYECTO INDIVIDUAL

Data Scientist


Descripción del problema

​ El proyecto consiste en lograr estimar adecuadamente el valor de una propiedad dentro del rubro de una inmobiliaria en los Estados de Unidos utilizando ciertas metricas para poder medir el perfomance de los modelos de machine learning creados, y de esta manera entender si es una buena oportunidad, ya sea de compra o de venta, a traves de la eleccion de los modelos.

​Es el caso que se proponen la realizacion de dos modelos: ​

  1. Implementar un modelo de clasificación con aprendizaje supervisado que permita clasificar el precio de las propiedades en venta, el objetivo es predecir si una propiedad pertenece a la categoría de precios bajos (low <= 999). ​
  2. Implementar un modelo de clasificación con aprendizaje no supervisado, utilizando clustering que agrupe las propiedades por segun las 3 categorias a las que pueden pertenecer. Para ello, solo usaran el dataset de test provisto, eliminando previamente las caracteristicas que presenten nulos. ​ ​

Métrica a utilizar

​ Como método de evaluación del desempeño, dependerá del modelo que usted decida implementar. ​

  1. Para el modelo de aprendizaje supervisado, se utilizará la métrica Accuracy para las propiedades de precio bajo (low):

$$ Recall=\frac{TP+ TN}{TP+TN+FP+FN}$$

​ Donde $TP$ son los verdaderos positivos, $FP$ los falsos positivos, $FN$ los falsos negativos y $FN$ los falsos negativos.
​ 2. Para el modelo de aprendizaje no supervisado, se utilizará la métrica Silhouette score:

$$ Silhouette=\frac{b_i-a_i}{max(b_i,a_i)}$$

Dónde $b_i$ es la distancia promedio al grupo más cercano desde el punto i, $a_i$ es la distancia promedio a todos los demás puntos del clúster al que pertenece el punto i.

Requerimientos

Todo los pautas generales sobre el proyecto se encuentran en el achivo Consulta.md del repositorio. Cabe destacar, que en vista del peso excesivo de los dataset de origen (train.parquet y test.parquet) se tuvieron que almecenar en un drive para una posterior visualizacion y analisis

datathon's People

Contributors

aylinv94 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.