Coder Social home page Coder Social logo

mlcourse_open's Introduction

Открытый курс OpenDataScience по машинному обучению

ODS stickers

❗ Старт нового курса – 6 сентября 2017 г. Веб-форма для участия ❗

В курсе даются теоретические основы машинного обучения, а также с помощью обилия домашних заданий и 2 соревнований Kaggle Inclass можно приобрести навыки практического анализа данных и построения прогнозных моделей. Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа.

Wiki-страницы этого репозитория:

  • Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
  • Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
  • ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
  • Топ-100 первого курса. 1 итерация курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников, было весело 😀. Увековечим имена тех, кто попал в топ-100 финального рейтинга.
  • Тьюториалы. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных.

Ниже перечислены основные темы курса (со ссылками на статьи на Хабре) и домашние задания с решениями.

Основные темы

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. Скоро...

Домашние задания

  1. Анализ данных по доходу населения UCI Adult. Тетрадка, веб-форма для ответов, решение
  2. Визуальный анализ данных о публикациях на Хабрахабре. Тетрадка, веб-форма для ответов, решение
  3. Деревья решений в игрушечной задаче и на данных Adult репозитория UCI. Тетрадка, веб-форма для ответов, решение
  4. Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика, Часть 2: прогноз популярности статьи на Хабрахабре, веб-форма для ответов, решение 1 части, решение 2 части
  5. Логистическая регрессия и случайный лес в задаче кредитного скоринга. Тетрадка, веб-форма для ответов, решение
  6. Работа с признаками. Тетрадка, веб-форма для ответов, решение
  7. Метод главных компонент, t-SNE и кластеризация. Тетрадка, решение, веб-форма для ответов
  8. Часть 1: Реализация алгоритмов онлайн-обучения, тетрадка, решение. Часть 2: Vowpal Wabbit в задаче классификации тегов вопросов на Stackoverflow, тетрадка, решение. веб-форма для ответов
  9. Предсказание числа просмотров вики-страницы. Тетрадка, решение, веб-форма для ответов
  10. Реализация градиентного бустинга. Тетрадка, решение, веб-форма для ответов

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.