Coder Social home page Coder Social logo

text-mining / persian-ner Goto Github PK

View Code? Open in Web Editor NEW
223.0 14.0 21.0 216.08 MB

پیکره بزرگ شناسایی موجودیت‌های نامدار فارسی برچسب خورده

Home Page: https://app.text-mining.ir

License: MIT License

ner persian-ner nlp named-entity-recognition persian persian-language

persian-ner's Introduction

Persian-NER

یکی از ابزارهای مهم جهت استخراج اطلاعات از متن، شناسایی موجودیت‌های نامدار (Named Entity Recognition) است. تشخیص موجودیت‌های نامدار (نامی) به این معناست که اسامی خاص در یک متن را بتوان تشخیص داد و آنها را به رده‌های مشخصی دسته‌بندی کرد.

این مخزن حاوی پیکره‌ای از اطلاعات برچسب‌خورده استاندارد است. اطلاعات از ویکی‌پدیای فارسی استخراج شده‌اند و در حال حاضر شامل حدود بیست و پنج میلیون توکن در قالب حدود یک میلیون جمله است

به بهبود برچسب‌های این پیکره کمک کنید

این پیکره به صورت اپن‌سورس منتشر شده است. همه پژوهشگران و علاقمندان می‌توانند به رایگان از آن استفاده کنند. برای بهبود برچسب‌های این پیکره می‌توانید به سایت زیر مراجعه کنید: https://app.text-mining.ir

تا کنون بیش از ۱۰۰۰ نفر از کاربران در بهبود این پیکره نقش داشته‌اند. لیست کامل مشارکت‌کنندگان (تا زمان انتشار فایل) را از اینجا می‌توانید مشاهده کنید

بعد از ثبت‌نام و ورود، با مراجعه به بخش «برچسب‌زنی متن NER» . راهنما و مثال‌های برچسب‌زدن متون در این بخش درج شده است و به راحتی می‌توانید برچسب کلمات را تغییر دهید. مراجعه کنید

برچسب‌گذاری اطلاعات مخزن

اطلاعات موجود در این مخزن، بر اساس دسته‌بندی‌های زیر برچسب‌گذاری شده‌اند:

  • نام شخص (نام کوچک یا فامیل افراد و القاب و عناوین منتسب و یا همراه آنها)
  • نام سازمان (شرکت، نهاد‌ها، ادارات و تشکل‌های خصوصی یا دولتی، نام بخش‌های ادارات، گروه، تیم یا باشگاه ورزشی، وزارت، نام کارخانه یا نام فروشگاه معروف یا اصناف، نام نشریات و خبرگزاری‌ها و …)
  • نام مکان (کشور، استان، شهر، روستا، کوه، رودخانه، دریا، صحرا، بنای تاریخی، خیابان، مجتمع مسکونی، منطقه یا ناحیه خاص، اشاره به مکان مدرسه یا کارخانه یا مغازه یا ایستگاه مترو یا حرم یا … در متن)
  • نام یا عبارت رویداد (حادثه، تصادف، قتل، جنگ، سرقت، آتش‌سوزی، حادثه تروریستی، برگزاری مسابقات مختلف، انتخابات، مذاکرات یا اجلاس، جشن یا کنگره یا … ، توافق‌نامه، تظاهرات، مناسبت و …)
  • عبارت زمان یا تاریخ (روز هفته، ماه، سال، ساعت، تاریخ، قرن، دوره یا عصر زمانی، اشاره به تاریخ یا زمان خاص یا نسبی مثل “دیروز”، “یک ساعت قبل”، “نیمه شب” و …)

Build Status

API Build Status Build Status

Web Panel Build Status Build Status

persian-ner's People

Contributors

ehsanasgarian avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

persian-ner's Issues

امکان استفاده از کیبورد در تگ زدن (تگ زدن بدون نیاز به ماوس)

این امکان که یک نفر بتونه با کیبورد بین کلمه‌ها حرکت کنه و با میان‌برهای تعریف شده برای هر تگ، اون کمه رو تگ بزنه و دوباره با کیبورد این جمله رو تایید کرده و بره به جمله بعدی میتونه سرعت کاربرهای جدی‌تون رو چند برابر کنه. البته اگر این کار رو روی کامپیوترشون انجام بدن.

امکان انتخاب به صورت یک range

این ویژگی میتونه مزایا و معایب خودش رو داشته باشه ولی اگر بتونید به کاربر اجازه بدید که یک range رو یک جا انتخاب کنه و همه رو با هم تگ بزنه میتونه ویژگی جالبی برای رابط فعلی‌تون باشه

Remote Validation in Register page

When a user types their email in the input after that he/she post the form to the server, and then we check the email address is duplicate or not, if yes we return back the form and user will get the message.

This flow could be short when we use the remote validation in our forms cuz the cause we improve the user experience.

docs

Demo

uu

Add Login with GitHub option

As almost all of the people contributing to this project have a GitHub account, adding an option to login with GitHub will be much appreciated.

رابط ساده‌تر جهت بیشتر شدن تمرکز کاربران

این یک نظر شخصی هست بنابر مشاهداتم از دیگر نرم افزارهای برچسب‌زنی. به نظر من اگر صفحه تگ‌زنی رو ساده تر کنید روی دقت کاربر و کمتر خسته شدنش تاثیر زیادی داره. بهتره که منو و گزینه هاش، توضیحات پایین و سمت چپ همه تا جای ممکن حذف بشه یا قابلیت جمع شدن داشته باشن و جمله دقیقا وسط صفحه قرار بگیره.
اینطوری کار کردن با این ابزار هم میتونه راحت‌تر باشه

Change External Login and Session Cookie name

Description

We had this issue in #7, but it still is there. In this case, we have to change external login and session cookie name that shows our stack.
2019-01-16_13-08-47

Expected behavior:
Cookies' name mustn't show our stack.

Actual behavior:

Cookies' name shows our stack.

Versions

Browser: Chrome 71
OS: Windows 10
Platform: web

اصلاح رنگ پس زمینه برچسب‌ها

این پیشنهاد در این توییت داده شده است: https://twitter.com/iMojtaba/status/1068788379158962177

بنفش شروع زمان رو یه مقدار متمایز تر از بنفش زمان بذارید

Use HTTPS

I won't go over why HTTPS is necessary, it's necessary. 😁

انتشار کد بخش ثبت تگ پنل

با توجه به اینکه پیکره‌های دیگری نیز ممکن است نیاز به استفاده از قابلیت جمع‌سپاری (crowdsource) برای تگ‌زنی داشته باشند، پیشنهاد می‌شود بخش ثبت تگ پنل نیز به صورت اپن‌سورس منتشر شود. همچنین اگر در کنار کد تگ‌زنی پنل، اپ‌های موبایل نیز برای تگ‌زنی منتشر شوند که با API نرم‌افزار تحت وب کار می‌کنند، بهتر است آن‌ها نیز اپن‌سورس باشند

ارتقا رابط کاربری و تجربه کاری نوشته های پروژه و قسمت پروفایل

پیشنهاد من استفاده از فونتی هست که وزن های متفاوتی داشته باشه که در نهایت طراح سایت مجبور به تغییر اندازه پیکسلی نشه و با تغییر وزن فونت تغییرات عنوان و زیر عنوان رو مشاهده کنه.
برای اینکار ما به فونتی نیاز داریم که رنگ اون مثل نسخه فعلی خاکستری روشن نباشه چون با پس زمینه سفید خوندن رو سخت می کنه و توصیه می کنم برای انتخاب رنگ- طراح عناصری مثل روشنایی و اشباع رنگی رو تغییر بده.
در نهایت اینکه متن های سایت یکم حالت خودمونی تری داشته باشه و کمتر رسمی باشه البته تصمیم در این مورد نیاز به تایید مدیر محصول داره.

به نظرم برای بهبود تجربه کاربری و رابط کاربری این کارها رو برای شروع می شه انجام داد.

#8 issue is there in other page

Related To #8

URL: https://app.text-mining.ir/Account/ExternalLoginConfirmation?ReturnUrl=%2FCustomerPanel

2018-12-03_14-03-04

Note

What is the reason for getting the email in external login?! When you use external providers like google they give you the email and more info about the user and then you just check the email is there or not,If not you register user and If there you login user, the main key of this system is fast auth and user doesn't need to type his/her email.

Performance: Static files just have min format name but really they aren't.

Description

The Customer panel is slow, in some cases we cloud improve it. I've found the issue that is minification for static files. Javascript files aren't minified they just have min name and there are jquery validator js files that aren't needed in most of the pages, we use them just in forms. The minification case also is there for CSS files. After minification, we cloud going to bundle static files to a single file that this act reduces our request count.
2019-01-16_13-18-52

Expected behavior:

Minified and bundled static files

Actual behavior:

UnMinified and Unbundled static files

Versions

Browser: Chrome 71
OS: Windows 10
Platform: web

Moderator random review

to increase output accuracy, we need to add this feature: Review beginner's work or random review. We may also need a user accuracy rank to determine random sentence assignments

Generate contributor file

We need to generate a file that includes a list of contributors (every user with at least one tag) sorted by total contributions.

bug: redundant route element causes 404

Description

after v2.0.0 new permission system adds a redundant route element to the URL. This causes 404 not found

Steps to Reproduce

  1. Login to Web Panel
  2. Go to Feel Analysis or Comment States link
  3. Click on authorized menu

Expected behavior:

Redirect to correct page

Actual behavior:

404 not found error as below image
capture

Versions

Browser: It's not a browser dependent error
OS: This bug is on the whole web app so is not OS or platform dependent 

ایجاد اکستنشن کروم و فایرفاکس

هدف این اکستنشن‌ها، ساده کردن دسترسی به تگ زنی جملات است و باید با API احراز هویت و تگ‌زنی انجام شود. این issue‌ برای بحث و تبادل نظر درباره اکستنشن کروم و فایرفاکس ایجاد شده است

Ask for a help from moderators

In labeling page, users should be able to ask for help from moderators. This help should be a private comment between each user and a moderator.

خطای ورود با گوگل

https://twitter.com/nasrabadi/status/1069557820557799424

Error: redirect_uri_mismatch

The redirect URI in the request, http://app.text-mining.ir/signin-google , does not match the ones authorized for the OAuth client. To update the authorized redirect URIs, visit: https://console.developers.google.com/apis/credentials/oauthclient/408303096486-u34m9l5nd02men6pjnechmovur2o4cgq.apps.googleusercontent.com?project=408303096486

Learn more

Request Details
That’s all we know.

Leaderboard

We need a leaderboard in the home page for most active users

Add user profile

for now just these fields: Name & family
we use this data in the leaderboard and generating contributors file

Selecting beginning and end of token instead of labeling each token

Since all tokens are in the form consecutive words, it would be much faster to select multiple words and select the label. All the labels could be inferred this way. Take this example:
پیست اسکی نسار بیجار استثنایی‌ترین ...
screen shot 1397-09-09 at 12 01 09
You can only select پیست as the starting word, بیجار as the ending word, and select the label مکان and it would be all done. No need to label each token separately.

However, I'm not sure if it's wise to make this the only way to label tokens. I'm not sure if there are examples of this method not working, but I'm almost certain you can find weird examples that cannot be labeled using this method.

This method may or may not be exposed in the API, but I believe it would make labeling by hand in the web interface much easier and faster. (Honestly, since submitting labels reloads the page, labeling tokens is tiresome. Combining this feature with #2 would make manual labeling much faster.)

باگ رتبه ششم

در scoreboard
رتبه ششم دوبار نمایش داده میشود

image

Browser: (ex: chrome 69)
OS: (ex: windows 10)
Platform: (web)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.