Coder Social home page Coder Social logo

culturomics's Introduction

Магистратура НИУ ВШЭ

НИС 2018

Культуромика

Участники проекта:

  • Митрофанова Марина
  • Николаева Анна (Telegram: @annnyway)
  • Пожидаева Марина

Куратор проекта:

  • Орехов Борис Валерьевич

Описание

Данный проект развивает область Культуромики, которая была предложена Google в 2011 году по результатам количественного анализа n-грамм в Google Books Ngram Viewer. Google Books Ngram Viewer – это поисковый веб-сервис, позволяющий строить графики и анализировать данные по частотности языковых единиц на основе огромного количества печатных источников, опубликованных с 16 века и собранных в сервис Google Books. Основная гипотеза, выдвинутая Google в 2011 году, заключается в том, что частотность употребления слов в книгах отражает важные культурные тренды.

В отношении текстов на русском языке Google Ngram Viewer не идеален: в нем не распознана вся старая русская орфография до 1918 года, и поэтому там сложно найти и проанализировать слова, характерные, скажем, для произведений Тютчева и Достоевского. Почему бы не исправить эти ошибки?

Очень часто исследователи направления культуромики изучают тренды конкретных слов или эпохи, думая, что частоты будут меняться именно у этих слов и именно в эту эпоху. Но что если посмотреть на значительную часть датасета Google Ngrams глазами статистики и выявить общие тенденции пиков и спадов частот слов и словосочетаний, не имея никаких предубеждений? Вдруг машина поймет что-то на основе этих данных, до чего не может додуматься человек? Именно поэтому мы решили применить статистические методы к большим данным из Google Ngrams - с целью выявления аномалий в данных.

Также было бы здорово по колебаниям в частотах n-грамм или по тем же аномалиям делать автоматические предположения о возможном событии в культуре и истории, вызвавшем эти колебания. В этом нам могут помочь Викиданные.

Задачи проекта

1. Исправление орфографии в русских n-граммах до 1918 года из Google Books Ngram Viewer

Ожидаемый результат: исправленный датасет в открытом доступе.

Ответственная Митрофанова М.

2. Поиск статистических выбросов и трендов автоматически, который включает в себя выявление пиков и спадов частотности n-грамм; выявление слов и n-грамм с отрицательной корреляцией; другие потенциально интересные статистические наблюдения, о которых исследователь может не подумать.

Ответственная Пожидаева М.

3. Связывание Google n-грамм русского языка с базой Викиданных для автоматического предсказывания культурного события, повлиявшего на частотность.

Ответственная Николаева А.

Результат: примеры утверждений из Викиданных, совпавших по годам с ростом частот в Google ngrams, можно найти тут.

Научные статьи по проекту

  1. Статья Митрофановой М. по коррекции орфографии

  2. Подробный черновой вариант статьи Николаевой А. и Пожидаевой М. по статистической обработке и связыванию Google Ngrams с Викиданными. На с.3 указан основной пайплайн работы с Викиданными.

Презентации по проекту для НИСа

  1. Презентация проекта от Б.Орехова
  2. О чем проект
  3. Полезные статьи по теме проекта

Отчеты по встречам

см. Meeting_reports.md

Техническое задание

  1. Изначальное ТЗ
  2. Новое ТЗ

Тим-лидерство

Расписание тим-лидерства: https://docs.google.com/spreadsheets/d/1wkLXJOS6rsG5xUrja26ofORUhB5N80HYoJlb99h4KSA/edit#gid=0

Общение с куратором

По понедельникам

culturomics's People

Contributors

annnyway avatar completelyboofyblitzed avatar mapozhidaeva avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.