Coder Social home page Coder Social logo

joseluislp / untref_ds_ml Goto Github PK

View Code? Open in Web Editor NEW

This project forked from guidowe/untref_ds_ml

0.0 0.0 0.0 321.9 MB

Repositorio del curso "Data Science y Machine Learning. Aplicaciones en R"

Home Page: https://guidowe.github.io/untref_ds_ml/

License: Other

HTML 99.33% R 0.20% TeX 0.05% CSS 0.42%

untref_ds_ml's Introduction

Materiales del curso Ciencia de Datos y Machine Learning. Aplicaciones en R

Docentes: Germán Rosati - Pablo Tiscornia - Guido Weksler

Presentación

Este curso se propone realizar una introducción a algunos conceptos fundamentales de la ciencia de datos. Se hará especial énfasis tanto en la etapa de extracción y limpieza de datos y se introducirán algunas técnicas para las etapas de modelado y comunicación. Se presentarán la implementación de análisis estadísticos básicos (descriptivos y regresiones) y algunas herramientas de visualización de datos. A su vez, el curso presentará algunos elementos metodológicos de la minería de datos/aprendizaje automático (balance sesgo-variancia, overfitting, etc.). Por último, se trabajará en la estimación de modelos basados en ensamble learning.

Programa

  • Unidad 1. Elementos de programación estadística en R: Objetos en R (vectores, matrices, data frames y listas). Introducción al tydiverse: data wrangling (select(), filter(), arrange(), mutate(). summarise(), group_by(), left_join()). Estructuras de control: for, if, map. Uso e implementación de funciones ad-hoc. Importación y exportación de datos (.csv, .txt, .tab, .sav, etc.).
  • Unidad 2. Visualización y generación de gráficos en R: Nociones de graficación (forma, color, tamaño, color). Niveles de medición y gráficos adecuados. Introducción a ggplot2: ggplot(), geom_points(), geom_smooth(), aes(), facet_wrap(), facet_grid().
  • Unidad 3. Análisis estadístico básico en R. Estadística descriptiva. Implementación y análisis de modelos de regresión lineal y logística. Funciones lm, glm y predict.
  • Unidad 4. Nociones básicas de data mining/aprendizaje automático. Tipos de problemas en aprendizaje supervisado: clasificación y regresión. Error de entrenamiento (training error), error de prueba (test error). Sobre-ajuste. Balance entre el sesgo y la variancia de un modelo. Métodos de estimación del error: partición del dataset, validación cruzada. Introducción a caret.
  • Unidad 5. Ensamble Learning. Clasificadores basados en árboles: CART. Algoritmos de Ensamble: bagging, random forest, boosting, Gradient Boostin. Uso de caret para entrenamiento de modelos. Interpretable Machine Learning: Herramientas para la interpretación de modelos de caja negra (Feature Importance, Partial Dependence Plots, Individual Conditional Expectance Plots. Aplicaciones en R.

Clases

Clase 1 - Introducción a R Base:

  • Temas de clase:
    • Descripción del programa “R”. Lógica sintáctica del lenguaje y comandos básicos
    • Presentación de la plataforma RStudio
    • Caracteres especiales en “R”
    • Operadores lógicos y aritméticos
    • Definición de Objetos: Valores, Vectores y DataFrames
    • Tipos de variable (numérica, de caracteres, lógicas)
    • Lectura y Escritura de Archivos
  • Descarga de materiales clase 1

[](Clase 1 - R Base.rar)


Clase 2 - Introducción a Tidyverse:

  • Temas de clase:
    • Paquetes y librerías
    • Presentación del paquete Tidyverse:
      • Paquete dplyr: Principales herramientas para el tratamiento del dato
      • Paquete tidyr: Re-estructuración de tablas y bases de datos
      • Operaciones segmentadas y tablas resúmenes
  • Descarga de materiales clase 2

[](Clase 2 - Tidyverse.rar)


Clase 3 - Visualización de la información

  • Temas de clase:
    • Gráficos básicos de R (función “plot”): Comandos para la visualización ágil de la información
    • Gráficos elaborados en R (función “ggplot”):
      • Gráficos de línea, barras, densidad, boxplots, geom_smooth
      • Extensiones de ggplot
  • Descarga de materiales clase 3

[](Clase 3 - Graficos.rar)


Librerías a utilizar

El taller se desarrollará en R y se hará un uso extensivo de las siguientes librerías:

  • tidyverse
  • caret
  • eph
  • openxlsx
  • ggthemes
  • ggridges
  • GGally

Pueden instalarse utilizando las instrucciones:

install.packages('tidyverse')  
install.packages('caret') 

Bibliografía básica y sitios de consulta

untref_ds_ml's People

Contributors

gefero avatar guidowe avatar pablotis avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.