El proyecto consiste en lograr estimar adecuadamente el valor de una propiedad dentro del rubro de una inmobiliaria en los Estados de Unidos utilizando ciertas metricas para poder medir el perfomance de los modelos de machine learning creados, y de esta manera entender si es una buena oportunidad, ya sea de compra o de venta, a traves de la eleccion de los modelos.
Es el caso que se proponen la realizacion de dos modelos:
- Implementar un
modelo de clasificación con aprendizaje supervisado
que permita clasificar el precio de las propiedades en venta, el objetivo es predecir si una propiedad pertenece a la categoría de precios bajos (low <= 999). - Implementar un
modelo de clasificación con aprendizaje no supervisado
, utilizando clustering que agrupe las propiedades por segun las 3 categorias a las que pueden pertenecer. Para ello, solo usaran el dataset de test provisto, eliminando previamente las caracteristicas que presenten nulos.
Como método de evaluación del desempeño, dependerá del modelo que usted decida implementar.
- Para el modelo de aprendizaje supervisado, se utilizará la métrica
Accuracy
para las propiedades de precio bajo (low):
Donde
2. Para el modelo de aprendizaje no supervisado, se utilizará la métrica Silhouette score
:
Dónde
Todo los pautas generales sobre el proyecto se encuentran en el achivo Consulta.md del repositorio. Cabe destacar, que en vista del peso excesivo de los dataset de origen (train.parquet y test.parquet) se tuvieron que almecenar en un drive para una posterior visualizacion y analisis