Coder Social home page Coder Social logo

zebradil / ruwordnet Goto Github PK

View Code? Open in Web Editor NEW
12.0 4.0 2.0 3.58 MB

Various tools for generating and managing RuWordNet thesauri database.

Home Page: http://ruwordnet.ru

Python 94.71% Makefile 1.64% Shell 0.16% PLpgSQL 3.49%
wordnet ruwordnet-thesaurus ruthes thesaurus

ruwordnet's Introduction

RuWordNet tools

Various tools for generating and managing RuWordNet thesauri database. http://ruwordnet.ru

See also: http://www.labinform.ru/pub/ruwordnet/index.htm

General information

The RuWordNet thesaurus is a thesaurus of the Russian language created in the format of well-known English thesaurus [WordNet] (https://wordnet.princeton.edu/). It was constructed using semi-automatic transformation of other Russian thesaurus for natural language processing RuThes (http://www.labinform.ru/pub/ruthes/).

RuWordNet contains synsets (sets of synonyms) for nouns (single nouns and noun phrases), verbs (single verbs and verb phrases) and adjectives:

  • 29297 noun synsets;
  • 12865 adjective synsets;
  • 7636 verb synsets.

Currently, RuWordNet thesaurus contains 111.5 thousand of unique Russian words and expressions.

Between synsets of the same part of speech, the following relations are established: hyponym-hypernym, instance-class, part-whole, antonymy relation, domain relations. For verbs, cause and entailment relations are described. Also part-of-speech synonymy links are established between synsets of different parts of speech having the same meaning.

RuWordNet thesaurus is distributed for non-commercial use. To obtain xml-files of the thesaurus, you can write to Natalia Loukachevitch ([email protected]).

RuWordNet Thesaurus is created with the support of Russian Foundation for Humantities (project 15-04-12017v).

Bibliography

  • Loukachevitch N., Dobrov B. RuThes linguistic ontology vs. Russian wordnets. Proceedings of Global WordNet Conference GWC-2014. – 2014.
  • Loukachevitch N. V., Lashevich G., Gerasimova A. A., Ivanov V. V., Dobrov B. V. Creating Russian WordNet by Conversion. In Proceedings of Conference on Computatilnal linguistics and Intellectual technologies Dialog-2016, 2016. pp.405-415
  • Loukachevitch N., Lashevich G. Multiword expressions in Russian Thesauri RuThes and RuWordNet. Proceedings of the AINL FRUCT 2016, 2016. pp.66-71.

ruwordnet's People

Contributors

dependabot[bot] avatar renovate[bot] avatar zebradil avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

ruwordnet's Issues

Неправильные связи derived_from

Через пути в тезаурусе мы выводили отношения между однокоренными словами.
И при выводе никакие однозначные идентификаторы (номер понятия или имя понятия) не сохранялись, и в случае, когда выводилась связь между однокоренными многозначными словами, возникает точно такая же проблема.

В итоге, когда мы смотрим на многозначное слово (например, "брак"), мы видим смесь однокоренных слов для разных значений:

БРАКЕРАЖ,
БРАКОВАННЫЙ,
БРАКОВАТЬ,
БРАКОВКА,
БРАКОВОЧНЫЙ,
БРАКОРАЗВОДНЫЙ,
БРАКОСОЧЕТАНИЕ,
БРАКОСОЧЕТАТЬСЯ

На самом деле эти однокоренные слова должны быть даны к словам в конкретном значении,
и сами должны быть в конкретном значении.

Неправильные связи composed_of

Для версии ruwordnet мы создавали файл composed_of, который описывает связи словосочетания со значениями слов-компонентов.

Для этого мы прослеживали пути между понятием словосочетания и понятиеми слов-компонентов. Если путь найден, то мы считали, что связь есть.

Например,
ИЗОБРАЖЕНИЕ В ПЕРСПЕКТИВЕ :
ИЗОБРАЖЕНИЕ - hypernym
ПЕРСПЕКТИВА - synset

Проблема в том, что и слова изображение и перспектива — неоднозначные.
И по путям мы приходим к одним значениям, а в окончательный файл вносятся другие значения (возможно, случайные).

В окончательном файле все выглядит так. И все эти идентификаторы текстового входа, и синсета, они не правильные, относятся не к тем значениям.

  <sense name="ИЗОБРАЖЕНИЕ В ПЕРСПЕКТИВЕ" id="102748" synset_id="N34727">
    <composed_of>
      <sense name="ИЗОБРАЖЕНИЕ" id="115436" synset_id="N26629"/>
      <sense name="ПЕРСПЕКТИВА" id="16083" synset_id="N16181"/>
    </composed_of>
  </sense>

Решение: при построении путей (как все и было) просто запоминать номера, которые позволят идентифицировать правильные значения.

Dependency Dashboard

This issue lists Renovate updates and detected dependencies. Read the Dependency Dashboard docs to learn more.

Open

These updates have all been created already. Click a checkbox below to force a retry/rebase of any.

Detected dependencies

docker-compose
docker-compose.yaml
pep621
pyproject.toml
  • poetry >=0.12
poetry
pyproject.toml
  • python ^3.8
  • lxml ^4.9.1
  • argparse ^1.4.0
  • tqdm ^4.47.0
  • isort ^5.0.0
  • psycopg2 ^2.8.6
  • nltk ^3.6
  • pymorphy2 ^0.9.1
  • pylint ^2.5.3
  • ipython ^8.0.0
  • autoflake ^2.0

  • Check this box to trigger a request for Renovate to run again on this repository

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.