Coder Social home page Coder Social logo

nagari's People

Contributors

gasyoun avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

nagari's Issues

Письмо от Александра Строганова

Необходимо решить проблему опознания графических символов для http://www.buddism.ru/ocr/.
За счет программы мы сможем распознать те символы которые будут в шрифтовой таблице.
Можете прислать шрифтовую таблицу в формате RTF или DOC для Word 97?

Однако некоторые буквы по-прежнему не удается найти в таблице и присвоить им значение Юникода.
Без этого мы сможем их распознать только как знак вопроса с порядковым номером.

Есть несколько решений этой проблемы.

  1. Найти текст набранный таким же шрифтом как и Панчатантра и для которого есть набранный и проверенный текст. Это позволит занести в таблицу распознавания все буквы которые есть в этом тексте.

Текст набран частично, с разными вкраплениями, кпд сомнительное.

  1. Проверка распознаваемого текста и замена знаков вопроса на корректные буквы тем кто знает эти начертания и может их опознать.
    В этом случае можно восстановить значение слова и угадать букву по слову в словаре. Поскольку необходимо опознать только лигатуры которых нет в таблице, мы сможем пополнить таблицу недостающими начертаниями лигатур. Для 96-97% точности распознавания нужно проверить около 25 страниц.

Сперва все же давайте занесем 807 лигатур Штиля.
https://www.dropbox.com/s/on106ihxufim27o/Santipur-807-Ligaturen.doc?dl=0
https://www.dropbox.com/s/mbqpmqwghl78e2z/Santipur-807-Ligaturen.pdf?dl=0

https://www.dropbox.com/s/tn93mwdcownjnmh/Siddhanta-807-Ligaturen.doc?dl=0
https://www.dropbox.com/s/kgieaqyxv34abqs/Siddhanta-807-Ligaturen.pdf?dl=0

После попросим https://renuvate.livejournal.com взглянуть, но пока - рано.

  1. Мы можем сделать папку с изображениями проблемных букв. Необходимо будет назвать каждый файл с изображением буквы корректным значением Юникода или приложить текстовой файл.
    По предварительным оценкам нужно назвать около 100 букв начертание которых не удалось найти в таблице.

А вот это, пожалуй, можно попробовать. Только для лигатур нет отдельных юникодных значений, это же конструктор?

  1. Опубликовать таблицу неизвестных букв в группе и надеяться что кто-либо из участников из назовет.

Хуже вариант, но давайте начнем.

  1. Подождать пока мы продвинемся с алгоритмом динамической классификации. Это позволит составить полную таблицу повторяющихся букв книги.
    Далее таблицу все равно нужно будет один раз заполнить вручную корректными значениями юникода.

Не вижу смысла ждать.

  1. У нас есть полный список лигатур из корпуса GRETIL в формате Юникод (в приложении). Можно перевести этот лист в различные кодировки и попробовать найти нужные лигатуры в различных шрифтах.
    Есть ли у вас такой конвертер?

Конвертеров море, не совсем пойму, чем это поможет. В частности http://samskrtam.ru/devanagari-translit-batch/

Образец распознанной страницы из хертелевской Панчатантры:

_page_081

अनु च । च्यै
प्रसन्नवदनो हष्टः स्पष्टो वाचा सरोषदृक् ।
सभायां वक्ति मामर्षः माव?म्मो नरः शुचिः ।।९५४ ।।
तद् एष टुष्टचारिन्नो दृश्यते । स्त्रीधर्षणाद् वध्य इति ?ऌायाम्
आरोप्यताम् इति ।
अथ तं वध्यस्थानं नीयमानम् आऌोक्य देवशर्मा तान्
धर्माधिकृतान् गत्वा प्रोवाच । भोः अत्यायेनैष वराको नापितो
वध्यते माधुसमाचारः । तच् छ्रूयतां मम वाक्यम् ।
जम्बुको हुडयुइेन वयं चाषाढभूतिना ।
दूतिका परकार्येण न्नयो दोषाः स्वयंकृताः ।।९५५ ।।
अथ ते सभ्यम् तम् ?चुः । भो भगवन् कथम् एतत् । ततश्
च देवशर्मा तेषां वृ?न्तन्नतम् अयि सवि?रं न्यवेदत् । अथ
तच् छ्रूत्वा ते सर्वे विस्मितमनमो नापितं विमुच्यैवं प्रोचुः ।
अवध्यो ब्रा?णो बाऌः स्त्री तपस्वी च रोगभाक् ।
विहिता व्यङ्गता तेषाम् अपराधे गरीयसि ।।९५६ ।।
तद् अस्या स्वकर्मवशाद् एव नासिकछेदः संवृन्तः । ततो राज
निग्रहः कर्णच्छेदः कर्यः । तथानुष्ठते देवशर्मापि दृष्टन्त?येन
स्वहदयं सस्थाप्य स्वकोयमठायतनम् अगमत् ।।

Gasuns' Dhatupatha Concordance Issues

В вордовском файле было
gatau yācane ca : ⎷añc MS, ⎷ard PKkKt.
В экселевском файле на основе вордовского файла тоже все правильно было:
gatau yācane ca * añc
gatau yācane ca * ard
gatau yācane yātane ca * ard

Откуда тогда в pdf, скопированном из экселя после работы макроса Антона взялось
gatau yācane ca
ityepare
Откуда этот ityepare? Его вообще нигде нет и быть не может, более того.

В вордовском файле было
prāṇane : ⎷aṇ SH, ⎷an, ⎷ūrj ⎷bal all (ex.V), ⎷laja ⎷lañja M, ⎷śvas all (ex. V), ⎷spṛ ⎷smṛ V.
Откуда тогда взялось
ca prāṇane

Краткий способ цитировать Ригведу

Цитируя значение слова из Ригведы, сейчас после копипаста я получаю 11 строк, что явно перебор. А если мне нужно процитировать не одно слово, а 5? Тогда мой файл наполнен мусором и запутывает, вместо того, чтоб помочь.

Как сейчас:

rv01.048.12

विश्वा॑न्दे॒वाँ आ व॑ह॒ सोम॑पीतये॒ऽन्तरि॑क्षादुष॒स्त्वम्। सास्मासु॑ धा॒ गोम॒दश्वा॑वदु॒क्थ्य1मुषो॒ वाजं॑ सु॒वीर्य॑म्॥

viśvān devāṃ ā vaha somapītaye 'ntarikṣād uṣas tvam |
sāsmāsu dhā gomad aśvāvad ukthyam uṣo vājaṃ suvīryam ||

Всех богов ты, Ушас, привози
На питье сомы из воздушного пространства!
Дай нам владеть коровами, владеть конями, о Ушас,
Наградой, достойной гимна, богатством из мужей!

Как надо:

  1. без деванагари
  2. без лишних пустых строк
  3. только та и 2 строк на санскрите, которая нужна
  4. соответственно остается только 1-2 строчки нужного русского текста, а не всего русского текста вообще
rv01.048.12
viśvān devāṃ ā vaha somapītaye 'ntarikṣād uṣas tvam |
Всех богов ты, Ушас, привози
На питье сомы из воздушного пространства!

Получаем четыре строчки. Как вариант вписать номер внутри:

viśvān devāṃ ā vaha somapītaye 'ntarikṣād uṣas tvam |
Всех богов ты, Ушас, привози
На питье сомы из воздушного пространства! rv01.048.12

Спарсить тексты veda.com

Включая pada pāṭha

तं त्वा॑ स॒मिद्भि॑रङ्गिरो घृ॒तेन॑ वर्द्धयामसि। बृ॒हच्छो॑चा यविष्ठ्य ॥३॥
पद पाठ
तम्। त्वा॒। स॒मि॒द्भिरिति॑ स॒मित्ऽभिः॑। अ॒ङ्गि॒रः॒। घृ॒तेन॑। व॒र्द्ध॒या॒म॒सि॒। बृ॒हत्। शो॒च॒। य॒वि॒ष्ठ्य॒ ॥३॥

यजुर्वेद » अध्याय:3» मन्त्र:3 उपलब्ध भाष्य

139 बार पढ़ा गया
×
हिन्दी - स्वामी दयानन्द सरस्वती
मनुष्यों को उक्त अग्नि की नित्य वृद्धि करनी चाहिये, इस विषय का उपदेश अगले मन्त्र में किया है ॥

पदार्थान्वयभाषाः -हम लोग जो (अङ्गिरः) पदार्थों को प्राप्त कराने वा (यविष्ठ्य) पदार्थों के भेद करने में अति बलवान् (बृहत्) बड़े तेज से युक्त अग्नि (शोच) प्रकाश करता है (तम्) उसको (समिद्भिः) काष्ठादि वा (घृतेन) घी आदि से (वर्द्धयामसि) बढ़ाते हैं ॥३॥
भावार्थभाषाः -मनुष्यों को जो सब गुणों से बलवान् पूर्व कहा हुआ अग्नि है, वह होम और शिल्पविद्या की सिद्धि के लिये लकड़ी, घी आदि साधनों से सेवन करके निरन्तर वृद्धियुक्त करना चाहिये ॥३॥

http://xn--j2b3a4c.com/yajurveda/3/3

veda

yogesh2unicode.vbee вне HTML тэгов

Как из DV-TTYogesh посредством yogesh2unicode.vbee сконвертировать только то, что вне тэгов HTML?
Так сможем спасти чудом уцелевшие Упанишады с ударениями с почившего в Бозе sansknet.ac.in

<!DOCTYPE HTML PUBLIC"-//IETF//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META NAME="GENERATOR" CONTENT="CENTRE FOR DEVELOPMENT OF ADVANCED COMPUTING">
<TITLE></TITLE>
</HEAD>
<BODY>
<FONT FACE="DV-TTYogesh"><FONT SIZE=+2>nщ¶ЙЁЙ +xЙЦґЙЙEт
<P></FONT> </FONT> 
<P><FONT FACE="DV-TTYogesh"><FONT SIZE=+2> +ЅЖю ґЙЮIЙєЄЙ ®дъК®ъґЙдКiЙ єґЙЙvЄЙЙЄЙЙlЙЙж ЁЙxjЙЙЁxЙЙЄЙ&amp;* єґЙЙvЄЙЙЄЙ¶SЙ КґЙtЙдi{ЙkЙЄЙд* |ЙEт®ъhЙЙiЙВ* КґЙtЙlЙИ ЅюТnЖщ 
<P></FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2>|ЙEт®ъhЙЁЙВ* xЙ SЙЙxЄЙЙlЙЗiґЙЁЙґЙMЙЁЄЙiЙд* єґЙЙvЄЙЙЄЙдxЙ SЙ КґЙ¶ЙЦrщєЙkґЙєЄЙ КґЙtЙдi{ЙКkЙ®ъґЙEт±{ЙiЙд*
<P></FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2> <B> +ЅЖю ґЙЮIЙєЄЙ ®дъК®ъґЙЙ* EтТМiЙ&amp; {ЙЮ№`Жц КMЙ®дъК®ъґЙ* &gt;рvґЙЗ{ЙКґЙjЙЙд ґЙЙКVЙxЙТґЙ єґЙЁЙЮiЙЁЙОєЁЙ 
<P></B> </FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2> <B>pщКґЙhЙД#ВєЙґЙSЙЗєЙЁЙВ* єЙЦЁЙдvЙЙ +ЁЙЮiЙЙдКIЙiЙ&amp;* &lt;КiЙ КjЙ¶ЙRВуEтЙдґЙжnщЙxЙЦґЙSЙxЙЁЙВ**1**
<P></B> </FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2> +ЅЖю ґЙЮIЙєЄЙЙдSUдфnщЙiЁЙEтєЄЙ єЙЖєЙЙ®ъґЙЮIЙєЄЙ ®дъК®ъґЙЙ |Йд®ъКЄЙiЙЙ%xiЙЄЙЙЗЁЄЙЙiЁЙxЙЙ* EтТМiЙ&amp; JЄЙЙКiЙКMЙ®иъ&amp; {ЙЮ№`цКЁЙґЙЙдОSUЕфiЙЙ ЁЙЁЙ* &gt;рvґЙЗ{ЙКґЙjЙ &gt;рvґЙИ EтЙ®ъhЙЖ {ЙКґЙjЙЖ {ЙЙґЙxЙЖ YЙЙxЙ|ЙEтЙ¶ЄЙЖ {ЙКґЙjЙЖ {Й®ъЁЙЖ ҐЙА ЄЙєЄЙ єЙґЙЙЗiЁЙxЙЙд ЁЙЁЙ єЙЙд%ЅюЁЙЪvґЙЗ{ЙКґЙjЙ&amp;* ґЙЙКVЙxЙТґЙ ґЙЙVЙґЙiЙТґЙ* ґЙЙVЙЁЙzЙЖ iЙuщКiЙ єЙКґЙiЙ®ъТiЄЙlЙЗ&amp;* ЄЙlЙЙ єЙКґЙiЙЄЙЗЁЙЮiЙЁЙЙiЁЙiЙkґЙЖ КґЙ¶ЙЦrЖщ |ЙКєЙrЖщ ёЙЦКiЙєЁЙЮКiЙ¶ЙiЙд¦ЄЙ BґЙЖ єґЙЁЙЮiЙЖ ¶ЙЙд¦ЙxЙЖ КґЙ¶ЙЦrщЁЙЙiЁЙiЙkґЙЁЙОєЁЙ ¦ЙґЙЙКЁЙ*
<P></FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2> pщКґЙhЙЖ vЙxЙЖ єЙґЙSЙЗєЙЖ nщТО{iЙЁЙkЙnдщґЙЙiЁЙiЙkґЙЁЙєЁЙТiЄЙxЙЦґЙiЙЗiЙд* ҐЙАYЙЙxЙЖ ґЙЙiЁЙiЙkґЙ|ЙEтЙ¶ЙEтiґЙЙiєЙґЙSЙЗєЙЁЙВ* pщКґЙhЙКЁЙґЙ pщКґЙhЙЖ ЁЙЙдIЙєЙЦJЙЅдюiЙЦiґЙЙiЙВ* +Й {ЙIЙд |ЙЙ{iЙЖ ЁЙЄЙдiЄЙvЄЙЙЅюЙ®ъ&amp;*
<P></FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2> єЙЦЁЙдvЙЙ&amp; ¶ЙЙд¦ЙxЙЙ ЁЙдvЙЙ єЙґЙЗYЙ±ЙIЙhЙЙ ЄЙєЄЙ ЁЙЁЙ єЙЙд%ЅЖю єЙЦЁЙдvЙЙ&amp;* єЙЖєЙЙ®ъОєlЙiЄЙЦi{ЙiЄЙЦ{ЙєЙЖЅюЙ®ъEтЙи¶Й±ЙЄЙЙдMЙЙiєЙЦЁЙдvЙєiґЙЁЙВ* +iЙ BґЙЙЁЙЮiЙЙд%ЁЙ®ъhЙvЙЁЙЙЗКIЙiЙЙд%IЙТhЙЙд%ґЄЙЄЙ&amp;, +IЙiЙЙд ґЙЙ; <FONT FACE="DV-TTYogesh"><FONT SIZE=+2>+ЁЙЮiЙдxЙ ґЙЙдКIЙiЙ&amp; КєЙHт&amp;* <FONT FACE="DV1-TTYogesh"><FONT SIZE=+2>"<FONT FACE="DV-TTYogesh"><FONT SIZE=+2>+ЁЙЮiЙЙдКIЙiЙЙд%ЅюЁЙВ<FONT FACE="DV1-TTYogesh"><FONT SIZE=+2>" <FONT FACE="DV-TTYogesh"><FONT SIZE=+2>&lt;iЄЙЙКnщ ҐЙЙАhЙЁЙВ*
<P></FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2> &lt;iЄЙдґЙЖ КjЙ¶ЙRВуEтЙд@с№ЙдҐЙЗА¦ЙЪiЙєЄЙ ҐЙАКґЙnщЙд ґЙдnщЙxЙЦґЙSЙxЙЁЙВ; <FONT FACE="DV-TTYogesh"><FONT SIZE=+2>ґЙдnщЙд ґЙдnщxЙ<FONT FACE="DV-TTYogesh"><FONT SIZE=+2>ЁЙЙiЁЙиEтiґЙКґЙYЙЙxЙЖ iЙєЄЙ |ЙЙО{iЙЁЙxЙЦґЙSЙxЙЖ ґЙдnщЙxЙЦґЙSЙxЙЁЙВ* +ЙiЁЙxЙ&amp; EЮтiЙEЮтiЄЙiЙЙJЄЙЙ{ЙxЙЙlЙИ ґЙЙЁЙnдщґЙґЙОkjЙ¶ЙRВуEЦтxЙЙ№ЙжhЙ nщ¶ЙЗxЙдxЙ oщ№]хЙд ЁЙxjЙЙЁxЙЙЄЙ +ЙiЁЙКґЙtЙ|ЙEтЙ¶ЙEт &lt;iЄЙlЙЗ&amp;*
<P></FONT> </FONT> <FONT FACE="DV-TTYogesh"><FONT SIZE=+2> +єЄЙ SЙ VЙ{ЙЙд КґЙtЙдi{ЙiЄЙlЙЙж%ґЙMЙЁЄЙiЙд* @сiЙЖ SЙдiЄЙЙКnщEтЁЙЙж{ЙxЄЙЙєЙЙnщxЙxiЙ®Жъ SЙ ґЙдnщЙxЙЦґЙSЙxЙ{ЙЙ`цЙnдщiЙnщґЙMЙЁЄЙiЙ BґЙЖ ёЙЙиiЙєЁЙЙiЙж№ЙЦ КxЙiЄЙд№ЙЦ EтЁЙЗєЙЦ ЄЙЦHтєЄЙ КxЙ№EтЙЁЙєЄЙ {Й®Жъ ҐЙА КґЙКґЙКnщ№ЙЙд®ъЙ№ЙЙЗКhЙ nщ¶ЙЗxЙЙКxЙ |ЙЙnЦщ¦ЙЗґЙxiЄЙЙiЁЙЙКnщКґЙ№ЙЄЙЙhЙТКiЙ**1**
<P></FONT> </FONT> 
<P><FONT FACE="DV-TTYogesh"><FONT SIZE=+2>&lt;КiЙ ¶ЙТIЙЙґЙ±±ЄЙЙЖ nщ¶ЙЁЙЙд%xЙЦґЙЙEт&amp;**<FONT FACE="DV-TTYogesh"><FONT SIZE=+2>10<FONT FACE="DV-TTYogesh"><FONT SIZE=+2>**
<P></FONT> </FONT> 
<P>
<HR>
</BODY>
</HTML>

Sanskrit Ligature Macro Issues

Source: .xlsm file
Function: VBA code
Output: .pdf

My "Liste der 807 tatsächlich belegten Sanskrit-Ligaturen" is just a retyped copy of Mathe.pdf document. Based on that list I've compiled an offspring, which I want to sort and reverse sort. Because list C. is sorted by length of ligature. Dirty input "IAST ed. of Rigveda (n vs. m̐)".

Stiehl's "Statistics of Conjunct Consonants in Sanskrit" is not public, so all we know is the screenshot, as he states nur echte Ligaturen.
conjuncts

Stiehl vs. Gasuns
Stiehl's:
Ligature # of qant. % of qant. Unknown Source Examples (2-3, with sandhi manually unsplit)
Gasuns':
Ligature # of qant. % of qant. Source (Rigveda) Examples (2, without sandhi manually unsplit)

  1. (Do not take long sample words) В примерах не отбирать самые длинные слова
    yasmiñcākanprāvo
    (is better than) лучше чем
    yadindrāhanprathamajāmahīnāmānmāyināmamināḥ

  2. (No duplicate sample words) Слова в примерах по возможности не повторять, а то

  1. ṣṭr 43 neṣṭrādṛtubhiriṣyata, paśyanhiraṇyacakrānayodaṁṣṭrānvidhāvato
  2. ṭr 43 neṣṭrādṛtubhiriṣyata, paśyanhiraṇyacakrānayodaṁṣṭrānvidhāvato
    (different ligatures have duplicate examples) две записи, а оба примера идентичные.
  1. (Replaced m̐) Заменил неизвестный на m̐
    ṣaṭtriṁśām̐śca

  2. Count Panini Ligatures

Макрос Антона не может правильно посчитать лигатуры Панини, потому что Штиль их не учел в своем списке, а мы на него опираемся. Следовательно: "Даже в Аштадхьяи Панини, не смотря на обилие фонетически несвойственных языку сочетаний из-за маркеров-анубандх, кластеров чуть больше Рамаяны, то есть жанровое различие не существенно." ждет своего подтверждения.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.