Этот репозиторий содержит лекции курса "Hadoop. Система для обработки больших объемов данных" от Mail.ru Group на Stepik.
BigData, MapReduce, облачные вычисления, NoSQL. Все эти понятия стали популярными в последние годы. И все они связаны с распределенной обработкой больших объемов данных. Hadoop - одна из самых популярных open-source систем для обработки больших объемов данных. Необходимость в таких системах растет с каждым годом - все больше компаний сталкиваются с проблемой растущего объема данных. Facebook, Twitter, Yahoo!, Bing, Mail.ru - это далеко не полный список компаний, которые используют Hadoop. Многие из них, при этом, активно участвуют в его развитии. И это неслучайно, т.к. именно большие интернет-компании первыми столкнулись с проблемой обработки больших объемов данных: как их надежно хранить, как обрабатывать, как получать быстрый доступ на их изменение. Сейчас Hadoop используется не только в интернет-компаниях, но и во многих других сферах, где возникает проблема с объемом данных (экономика, астрономия, биология, физика и т.д.) Записывайтесь на наш курс и вы узнаете современные методы хранения и обработки больших объемов данных на примере системы Hadoop.
Студенты старших курсов, разработчики начального и среднего уровня. Также курс будет полезен тем, кто уже имеет небольшой опыт работы с Hadoop. Знание языков программирования не является обязательным, но очень желательно. В курсе есть примеры программ и в практических задачах нужно уметь читать и писать код. При этом используются Java и Python. Глубокого знания этих языков не требуется и проблем не будет, если вы знаете только С++. Нужно быть знакомым с Linux и уметь работать в командной строке. Желательно хотя бы немного знать английский язык, т.к. в курсе встречаются термины и надписи на английском.
- Введение
- Распределенная файловая система HDFS
- MapReduce. Введение
- Решение задач с помощью MapReduce
- Алгоритмы на графах в MapReduce
- Pig и Hive
- NoSQL базы данных: HBase и Cassandra
- Spark
- YARN. MapReduce 2.0