Coder Social home page Coder Social logo

lenarsaitov / vk-word-frequency-analyzer Goto Github PK

View Code? Open in Web Editor NEW
0.0 2.0 0.0 978 KB

Word frequency analysis in VKontakte's public

Python 6.37% Jupyter Notebook 93.63%
python nltk vk vk-api pymorphy2 nlp word-frequency-count frequency-analysis json vkontakte

vk-word-frequency-analyzer's Introduction

Сбор и анализ частотности слов в постах и комментариях группы в вк

В данной работе собираются и анализируются слова, используемые при написании постов и комментариев к ним, на примере сообщества Лентач

Окружение

В проекте используется Python 3, также необходимы дополнительные библиотеки, такие как nltk, stop_words, pymorphy2, vk_api и т.д.

Для их установки используйте команду:

pip3 install -r requirements.txt

Необходимые данные

Для использования данной работы, потребуется следующие данные:

  • login - логин от аккаунта в Вконтакте (желательно номер телефона)
  • password - пароль
  • owner_id - идентификатор сообщества (по умолчанию — Лентач)
  • count_of_posts - количество постов, с которых собираются данные (по умолчанию — 500)

Получаемые данные

В процессе выполнения, мы получаем

  • frequency_post_words - частотность слов, используемые при написании постов
  • frequency_main_comm_words - частотность слов, используемые при написании комментариев
  • frequency_answ_comm_words - частотность слов, используемые при написании в ответах на комментарии

которые сохраняются в соответствующих трех файлах в папке results

Структура работы

При помощи специального API собираются данные с постов.

Далее убираются стоп-слова (предлоги, союзы, междометия, частицы и другие части речи, которые часто встречаются в тексте, являются служебными и не несут смысловой нагрузки, т.е. являются избыточными) и слова, не имеющие смысла (ссылки на что-либо, эмодзи итп)

Затем используем морфологический анализ и приводим слова в первоначальную форму

Потом при помощи nltk.probability уже определяется частотность этих слов

Анализ полученных данных

В ноутбуке research_results_data.ipynb приводится первичный анализ полученных данных

Данные актуальны на 22.05.2021

vk-word-frequency-analyzer's People

Contributors

lenarsaitov avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.