Repository for Data Science and Big Data Analytics Course was taken in 2022 in NRNU MEPhI
There will be some homeworks for this course and instructions for building and testing for each of them.
Программа, которая строит тепловую карту кликов по странице Входные данные: координаты нажатия x,y, userId, timestamp (справочник областей экрана: <координаты области> - <название области>, справочник температур: <диапазон значений> - <температура (высокая, средняя, низкая)>) Выходные данные: название области экрана, количество нажатий (температура)
SequenceFile со Snappy сжатием (плюс команда просмотра содержимого сжатого файла посредством распаковки). Приложить скриншот просмотра сжатого контента.
Использование Счетчиков. Приложить скриншот использования Счетчиков.
Программа должна эмулировать 2 типа вычислений - compute intensive (преобладают вычисления) и data intensive (преобладают операции обмена данными). В качестве референсной реализации взять: расчет больших значений факториала для элементов массива BigInteger и группировку элементов массивов по ключам каждый с каждым с редукцией суммированием (сначала генерируется сразу множество массивов, затем попарно элементы группируются по ключам, для объединенного массива выполняется редукция значений суммированием с последующей записью результата). Программа должна поддерживать возможность запуска на разном количестве данных и выполнять таймирование выполнения.
Sqoop importer (PostgreSQL to HDFS)
HDFS
Spark SQL (DataFrame, DataSet)
Для любого доступного публичного stream API (например, https://www.quora.com/Where-can-I-find-public-or-free-real-time-or-streaming-data-sources ) написать программу, которая вычисляет количество некоторых событий (метрик, сообщений и т.д) поминутно и отправляет агрегированные данные в Elasticsearch (count/timeline graph).
Ubuntu Dockerfile с bash-скриптами настройки окружения
log4j async or any http appender
Grafana