Coder Social home page Coder Social logo

zamgi / lingvo--ner-ru Goto Github PK

View Code? Open in Web Editor NEW
40.0 6.0 7.0 29.01 MB

Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке

License: MIT License

C# 94.80% HTML 2.58% CSS 0.89% JavaScript 1.70% Batchfile 0.03%
lingvo linguistics natural-language-processing ner named-entity-recognition nlp nlp-machine-learning

lingvo--ner-ru's Introduction

lingvo--Ner-ru

[ live demo ]

Под автоматическим определением именованных сущностей - (NER - Named-Entities Recognition) - понимается поиск и классификация имен собственных, названий событий, продуктов, топонимов и пр.
Например, это могут быть имена людей или названия компаний, названия географических объектов (города, реки, улицы и пр.).

В приведенной системе представлена классификация именованных сущностей на пять типов:
  • 1. физические лица (ФИО или любая составляющая ФИО, например, Владимир Петров)
  • 2. юридически лица (названия компаний, сообществ, союзов и т.п., например, ЗАО «МТС Северо-Запад»)
  • 3. географические названия, например, Париж
  • 4. продукты (названия продуктов, их марок, в том числе брендов, например, iPhone)
  • 5. события (именованные события: названия праздников, форумов, спортивных состязаний и т.п. мероприятий, например, Рождество)

Особенностью данной системы является то, что типы определяются не словарем, а на основе статистических алгоритмов. С одной стороны это может привести к ошибкам в определении типа сущности (например, "Красная Москва - когда-то это были самые замечательные духи" может определиться как география), но с другой стороны система способна корректно определить новый, ранее невстречавшийся тип.
Количество типов и описание их классов задается на этапе обучения (получения статистической модели).

Данная система работает с русскоязычными текстами и классифицирует слова, содержащие хотя бы одну заглавную букву. Точность определения типов сущностей (по мере F1):
  • 1. физические лица - около 95%
  • 2. юридически лица - около 87%
  • 3. географические названия - 92%
  • 4. продукты - 81%
  • 5. события - 79%
Скорость обработки текста данной системой состовляет порядка 400-450 кБайт/сек.

lingvo--ner-ru's People

Contributors

zamgi avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.