Coder Social home page Coder Social logo

mapull / chinese-dictionary Goto Github PK

View Code? Open in Web Editor NEW
392.0 5.0 100.0 87.6 MB

中文汉语拼音辞典,汉字拼音字典,词典,成语词典,常用字、多音字字典数据库

Home Page: https://detah1.smartapps.cn/pages/tabbar/home/home

License: MIT License

chinese-dictionary's Introduction

汉语拼音辞典

本词典主要收录了常用字基本信息,多音字,汉字基本解释,常用词汇、常用成语读音。

缘起

中华传统文化,源远流长,博大精深!从古至今,上下五千年,在这历史的长河中先辈们创造出了无数的历史奇迹。 在**两千多年的漫长帝制社会里,汉字一直是我们中华民族文化传承的重要工具。 从甲骨文到秦始皇统一文字,再到近代简化字,汉字一直在经历演变过程。 汉字总数超过8万,但常用字仅2500个,次常用字1000多个,共3500个。

根据《通用规范汉字表》中收录的8105个汉字,汉字分为三级:一级字为常用字集3500个,主要满足基础教育和文化普及的基本用字需要。 二级字收录3000个,使用度仅次于一级字。一、二级字共6500个,主要满足出版印刷、辞书编纂和信息处理等方面的一般用字需要。 三级字收录 1605 个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。

汉语拼音词典 就属于一个便于用户查询汉字拼音与笔画的电子词典工具。

字库

字库的准确性和完整性对于 辞典 工具来说至关重要。 在校对过程中,关于数据准确性没有做严格的把控,特别是很多汉字非常罕见,其中大量古文文献资料的引用更是难以考证。 本词典收集了如下字、词库:

|---- chinese-dictionary
|----|---- character
|----|----|---- char_base.json             总收录汉字超 20000 拼音与笔画
|----|----|---- char_detail.json           总收录汉字超 20000 解释
|----|----|---- polyphone.json             多音字 1589
|----|----|---- related.json               相关字 1677 近义、反义、形近字
|----|----|---- common
|----|----|----|----  char_common.json           常用字 3500 仅汉字
|----|----|----|----  char_common_base.json      常用字 3500 拼音与笔画
|----|----|----|----  char_common_detail.json    常用字 3500 解释
|----|---- idiom
|----|----|---- idiom.json                 总收录成语 近5万 条
|----|---- word
|----|----|---- word.json                  总收录词语 超过32万 条(包含成语)

汉字

为何数据是 JSON 格式?

JSON 格式可以方便快捷地转为各种编程语言内部可使用的结构。

此外某些工具支持将 JSON 文件导入后直接显示出来。

char_base.json 基础汉字

[
  {"index": 52, "char": "", "strokes": 4, "pinyin": ["fǎn"], "radicals": "", "frequency": 0, "structure": "R2"}, 
  {"index": 18, "char": "", "strokes": 3, "pinyin": ["gān", "gàn"], "radicals": "", "frequency": 0, "structure": "D0", "traditional": "乾幹", "variant": "乹亁榦"},
  {"index": 372, "char": "", "traditional": "", "strokes": 9, "pinyin": ["miàn"], "radicals": "", "frequency": 0, "structure": "D0", "variant": ""},
  {"index": 7467, "char": "", "strokes": 9, "pinyin": ["biān"], "radicals": "", "frequency": 3}
]
  • index 表示从 1 开始的自然增长序列,唯一不重复,前8000按照《通用规范汉字表》给的顺序。
  • char 表示一个汉字,唯一不重复。
  • strokes 汉字的笔画数。
  • pinyin 汉字的读音列表,数组表示,多音字会有多个读音。
  • radicals 汉字的读音偏旁部首。
  • frequency 表示使用频率,0 为最常用,1 为较常用,2 为次常用,3 为二级字,4 为三级字, 5 为不在《通用规范汉字》的生僻字。
  • structure 汉字结构,结构表示的含义见下表。
  • traditional 表示繁体字写法,可能会有多个。
  • variant 表示异体字,可能会有多个。

常用字(3500) = 最常用字 0(500)+ 较常用字 1(2000)+ 次常用字 2(1000)

通用规范汉字(8105)= 一级字 0/1/2(3500)+ 3 二级字(3000)+ 4 三级字(1605)

汉字结构

《汉字结构表》统计了汉字的八种结构类型:

结 构 方 式 例 字 间 架 比 例 代码
独 体 结 构 米、不  方正 D0
品 字 形 结 构 晶、众 各部分相同 A0
上 下 结 构 B0
- 录、华  上下相等 B1
- 它、花 上小下大 B2
- 基、想 上大下小 B3
上 中 下 结 构 E0
- 意、翼 上中下相等 E1
- 量、裹 上中下不等 E2
左 右 结 构 H0
- 羽、联 左右相等 H1
- 伟、搞 左窄右宽 H2
- 刚、郭 左宽右窄 H3
左 中 右 结 构 M0
- 街、掰 左中右相等 M1
- 辩、傲 左中右不等 M2
全 包 围 结 构 圆、国 全包围 Q0
半 包 围 结 构 R0
- 匠、区 左包右 R1
- 历、尾 左上包右下 R2
- 勾、句 右上包左下 R3
- 遍、廷 左下包右上 R4
- 冈、闲 上包下 R5
- 函、凶 下包上 R6

一般认为上面的分类可以覆盖所有的汉字,但是,还有一些分法更细一些:

在独体结构中分出了镶嵌结构,在上下结构中分出了田字结构:

结 构 方 式 例 字 间 架 比 例 代码
独 体 结 构   D0
镶嵌结构  方正 D1
上 下 结 构 B0
田字结构 叕、茻  四部分相同 B4

char_detail.json 汉字解释

[
   {
       "char": "",
       "pronunciations": [
           {
               "pinyin": "chē",
               "explanations": [
                   {
                       "content": "(象形。甲骨文有多种写法。象车形。本义:车子,陆地上有轮子的运输工具)。"
                   },
                   {
                       "content": "同本义。",
                       "detail": [
                           {
                               "text": "車,舆论之总名。夏后时奚仲所造。象形。",
                               "book": "《说文》。按,横视之肖,或云车少昊时驾牛,奚仲始驾马。"
                           },
                           {
                               "text": "为车。大车、柏车、羊车,皆两辕,驾牛;田车、兵车、乘车,皆一辀,驾马。大车,平地任载车,柏车、山车,羊车、善车也;田车、兵车,乘车,通谓之小车。",
                               "book": "《考工记·舆人》"
                           },
                           {
                               "text": "车从马。",
                               "book": "《左传·闵公元年》"
                           }
                       ],
                       "words": [
                           {
                               "word": "开车;安步当车;杯水车薪;闭门造车;螳臂当车;车两 ",
                               "text": "古谓车一乘为一两"
                           },
                           {
                               "word": "车盖",
                               "text": "古代车上的伞形车篷。亦指具有此种车篷的车辆"
                           }
                       ]
                   },
                   {
                       "content": "特指战车,兵车。",
                       "detail": [
                           {
                               "text": "比至陈,车六七百乘,骑千余,卒数万人。",
                               "book": "《史记·陈涉世家》"
                           },
                           {
                               "text": "车辚辚,马萧萧,行人弓箭各在腰。",
                               "book": "唐·杜甫《兵车行》"
                           }
                       ]
                   },
                   {
                       "content": "乘车。",
                       "detail": [
                           {
                               "text": "济济群英,车的车,步的步,陆续来了。",
                               "book": "清·心青《女界文明灯弹词》"
                           }
                       ]
                   },
                   {
                       "content": "姓。"
                   }
               ]
           },
           {
               "pinyin": "",
               "explanations": [
                   {
                       "content": "国际象棋中的一种棋子,它可以顺着平行于棋盘边的路随便走多少方格,假如没有其它棋子阻挡的话。"
                   }
               ]
           }
       ]
   },
   {
       "char": "",
       "pronunciations": [
           {
               "pinyin": "zhè",
               "explanations": [
                   {
                       "content": "代词。指近处的人、事、物等。",
                       "simplified": ""
                   }
               ]
           }
       ]
  }
]

其中包含 2 个部分:

  1. char 表示当前汉字
  2. pronunciations 表示汉字在各个读音下的不同含义
    • pinyin 汉字拼音
    • explanations 汉字对应读音的解释
      • content 汉字具体解释
      • speech 汉字属于名词、动词等十二种词性
      • example 对应上述解释的例句
      • detail 对 content 的例证
      • word 汉字该解释下的词组
      • modern 说明当前汉字在古代使用,同现在的某个汉字
      • same 汉字与某个字含义相同,可以混用
      • simplified 表示该汉字是某个汉字的繁体字,含义可以参考简体字
      • variant 表示该汉字是某个汉字的异体字,含义可参考源字
      • refer 为一个词组,表示汉字含义需要参考某个词组。
      • typo 当前汉字为某个汉字的讹字(错误形式)。
      • unknown 义未详,部分汉字查询不到具体含义,暂时标注为 true。

基本的数据格式如下:

[
  {
    "char": "",
    "pronunciations": [
      {
        "pinyin": "",
        "explanations": [
          {
             "content": "最小的正整数。", 
             "speech": "",
             "example": "这里有一个苹果。", 
             "detail": [{"text": "一也者,万物之本也。", "book": "《淮南子·诠言》"}], 
             "words": [{"word": "一丝", "text": "一根蚕丝", "example": "要时刻谨记一丝一缕当思来之不易。"}], 
             "same": "", 
             "modern": "", 
             "refer": "一样", 
             "simplified": "", 
             "typo": ""
          }
        ]
      }
    ]
  }
]

数据规范

  • 整体为列表(数组)
  • 每个列表项为一个汉字,不重复
  • 每个汉字一定会出现 2 个属性:汉字char、相关解释pronunciations
  • 汉字 char 不可省略,不能为空,且长度为 1
  • 读音 pronunciations 为列表,如果是多音字会有多个,不能为空,其中每一项包含 pinyin 和 explanations 。
  • pinyin 在同一个汉字中数据不会重复,且个数等于该汉字的读音个数。
  • explanations 为列表,可能有多个,不可为空。其中每一项包含 content 和 detail ,除非为特殊汉字,否则一定存在 content 字段。
  • content 中是字符串,一般表示独立的含义,其个数基本代表该汉字有多少种解释。
  • speech 词性分类,选自下面的十二种词性,省略后缀'词'。
  • detail 中是字符串列表,一般表示一组有关联的汉字解释,是对 content 的进一步例证。其中 text 是文献内容,book 是文献例证出处。
  • words 是一个列表,是当前解释下的词组。其中 word 是词组,text 是词组的简单解释,example 是包含词组的例句。
  • same 为单个汉字,表示当前汉字与 same 含义相同,表示 同‘X’,通‘X’,见‘X’。
  • modern 为单个汉字,表示当前汉字如今的写法,存在该字段一般说明该汉字已经不使用了。
  • refer 为一个词组,表示汉字含义需要参考某个词组。某些汉字单独出现时没有含义,必须和另外的汉字组词。
  • simplified 为单个汉字,表示当前汉字是某个汉字的繁体字,含义可以参考简体字。
  • typo 为单个汉字,表示当前汉字的讹字。

目前结果集文件中数据不满足上述规范,是因为解析过程中,某些数据有缺失或者格式错乱,在持续改进后,最终会完全满足上述要求。

词性分类

实词:1.名词;2.动词;3.形容词;4.数词;5.量词;6.代词。 虚词:1.副词;2.介词;3.连词;4.助词;5.叹词;6.拟声词。

polyphone.json 多音字

polyphone.json 文件中的多音字包含常用字里多音字的 600 余个和其它非常用字的 900 余个,共 1589 条数据。

[
  {"index": 1, "char": "", "pinyin": ["liǎo", "le"], "frequency": 0, "strokes": 2},
  {"index": 506, "char": "", "pinyin": ["", ""], "frequency": 2, "strokes": 8}
]

其中:

  • index 表示汉字索引值,从 1 开始
  • char 表示该汉字
  • pinyin 为汉字读音的数组
  • frequency 表示使用频率,0 为最常用,1 为较常用,2 为次常用,3 为不常用
  • strokes 表示汉字笔画数

related.json 相关字

[
   {"index": 2946, "char": "", "synonyms": ["", ""], "antonyms": [""], "likeness": [""]}
]

其中:

  • char 表示该汉字
  • synonyms 表示同义字
  • antonyms 表示反义字
  • likeness 表示形近字

char_common.json 常用字

考虑到某些场景下,只需要关注 3500 常用字,因此特意建了 common 文件,在其中仅包含常用字 3500 的相关数据。

[
  {"index": 4, "char": "", "frequency": 0},
  {"index": 278, "char": "", "frequency": 1},
  {"index": 3405, "char": "", "frequency": 2}
]
  • id 表示从 1 开始的自然增长序列,默认按照汉字笔画数排序。
  • char 表示一个汉字。
  • frequency 表示使用频率,0 为最常用,1 为较常用,2 为次常用。

char_common_base.json 常用字

文件中数据与 char_base 结构完全一致。

[
  {"index": 1, "char": "", "strokes": 1, "pinyin": [""], "radicals": "", "frequency": 0},
  {"index": 16, "char": "", "strokes": 3, "pinyin": ["", "dài", "tài"], "radicals": "", "frequency": 0}
]

char_common_detail.json 常用字

文件中数据与 char_detail 结构完全一致。

词语

idiom.json 成语

[
   {
      "word": "一帆风顺",
      "abbr": "yffs",
      "pinyin": "yī fán fēng shùn",
      "source": {"text": "定知一日帆,使得千里风。", "book": "唐·孟郊《送崔爽之湖南》"},
      "quote": {"text": "栉霜沐露多劳顿,喜借得~。", "book": "清·李渔《怜香伴·蹴居》"},
      "explanation": "船上的帆挂起来顺着风行驶。比喻事情非常顺利,没有任何阻碍。",
      "story": ["从前有个....", "后来在田野中..."],
      "example": "①朋友,在分别之际,我祝你一帆风顺,事业有成。②小明一家要到海南旅游,祝他们一帆风顺,旅途平安。",
      "similar": ["万事亨通", "无往不利"],
      "opposite": ["寸步难行", "一波三折"],
      "usage": "常用来祝愿他人旅途顺利。作祝词时,前面常有“祝你”“祝你们”“祝大家”等词语。多用于褒义。",
      "notice": "“一帆风顺”和“无往不利”都含有非常顺利的意思。区别在于:①“一帆风顺”指做事毫无挫折,着眼于顺利的程度;“无往不利”指事事顺利,着眼于顺利的范围。②“一帆风顺”用作祝词;“无往不利”无此用法。",
      "spelling": {"right": "锱铢必较", "wrong": "锱珠必较", "text": "锱、铢:都是古代很小的重量单位。"}
   }
]
  • 整体为列表(数组),每个列表项为一个词语,不重复

其中:

  • word 表示该成语,唯一且不为空,长度大于等于 3
  • pinyin 为成语读音,不为空
  • abbr 拼音的简写,一般在搜索时使用到,不为空
  • explanation 表示该成语解释。不为空
  • source 表示该成语出处。不必须
  • quote 表示哪些出名的著作中使用到了该成语。不必须
  • story 表示该成语故事,格式为数组,因为一般内容较长,便于分段。不必须
  • similar 表示该成语近义词。不必须
  • opposite 表示该成语反义词。不必须
  • example 表示该成语的例句。不必须
  • usage 表示该成语的用法。不必须
  • structure 词语结构,结构表示的含义见下表。不必须,仅特殊结构包含该字段
  • notice 表示该成语使用时应该注意的地方。不必须
  • spelling 容易出现错误写法的成语,会在 right中体现正确的,wrong中体现错误的,text是补充说明。不必须
词语结构
结 构 方 式 例 字 代码
ABB 懒洋洋 ABB
AAB 偷偷地 AAB
ABAB 乐呵乐呵 ABAB
AABB 堂堂正正 AABB
ABAC 一心一意 ABAC
AABC 振振有词 AABC
ABCC 千里迢迢 ABCC

word.json 词语

[
    {
      "word": "动脉", 
      "pinyin": "dòng mài", 
      "abbr": "dm", 
      "explanation": "把心脏中压出来的血液输送到全身各部分的血管; 比喻重要的交通干线。"
    }
]
  • word 表示该词语,唯一且不为空,长度大于等于 2
  • pinyin 为词语读音,不为空
  • abbr 拼音的简写,不为空
  • explanation 表示该词语解释,超过 99% 的词语含有释义

词语和成语的所有属性完全相同,且词语库包含成语库。

所有的成语数据 idiom.json 都包含在 word.json 文件中。

线上应用

目前 汉语拼音词典 已经在多端上线小程序。

微信小程序:汉语拼音词典

微信小程序

图片显示不出来的话,可以点击这里

百度小程序:码谱汉语拼音词典

百度小程序

抖音、字节跳动小程序:汉语拼音辞典

字节跳动小程序

参考资料

字库的基础数据大都来自 Github 及其他开源组织,本项目字库参考但不限于如下资源:

参考商用数据是为了人工校对数据的准确性,并没有对其数据进行爬取。

版权

该项目是为了支持 汉语拼音辞典 的线上数据。在使用小程序的过程中,发现有些汉字读音有误,如果人工校对将是一个庞大的工程,于是对现有的开源语料库进行了多维分析。如果不确定的读音,还参考了部分商业应用如汉典网的数据进行人工比对。

本项目汇总得到的数据结果采用 MIT License 开源。

因为某些收集来的数据,无法确认数据的最初来源,使用它们可能存在风险。

chinese-dictionary's People

Contributors

mapull avatar zeffon avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

chinese-dictionary's Issues

word.json未上传

Hi @mapull

|----|----|---- character
|----|----|----|---- char_base.json             总收录汉字超 20000 拼音与笔画
|----|----|----|---- char_base_detail.json      总收录汉字超 20000 解释
|----|----|----|---- char_common.json           常用字 3500 仅汉字
|----|----|----|---- char_common_base.json      常用字 3500 拼音与笔画
|----|----|----|---- char_common_detail.json    常用字 3500 解释
|----|----|----|---- polyphone.json             多音字 1589
|----|----|---- idiom
|----|----|----|---- idiom.json                 总收录成语 近5万 条
|----|----|---- word
|----|----|----|---- word.json                  总收录词语 超过32万 条(包含成语)

按照这个目录结构,没有word目录。

related.json未上传

您好,readme中提到的related.json在项目中没有找到。

image

请问这个json文件方便上传吗?

问题

没有找到形近字

注音错误的条目

别鹤离鸾 bié hè lí láun
昂昂自若 áng áng zì roò
现世现报 xiàn shì xiàn bòo

赭衣塞路 zhě yī sàī lù
身家性命 shēn jiā xìng mìngv
龙生龙,凤生凤 lóng shēng lóong,fèng shēng fèng

成语库中,拼音分隔符混乱

有用双空格分割的,有用单空格的,有用 \u3000 分割的,有用\xa0分格的,格式混乱,还有成语拼音是中文的,ex:"word" : "布衣韦带", "pinyin" : "布衣韦带", "abbr" : "bywd"

一些错误的成语

真知卓见
固步自封
惟利是图
劈头盖脸
翻复无常
层见迭出
眼急手快
不加思索
锱珠必较
吃里扒外
磬竹难书
手急眼快
安份守己
惟命是从
付之东流
烁石流金
趋之若骛
全神灌注
愤世疾俗
甘败下风
眼花撩乱
如雷灌耳
孤苦零丁
夫倡妇随
融汇贯通
明查暗访
合衷共济
积毁消骨
划地为牢
汗流夹背
丢三拉四
消声匿迹
承上起下
一口同声
出奇致胜
磨拳擦掌
趁心如意
毛骨竦然
义气相投
别出新裁
毛骨耸然
走头无路
一笔勾消
没精打彩
攻城掠地
哀声叹气
屯积居奇
姿意妄为
好高鹜远
按部就班
无精打彩
轰堂大笑
六根清静
言不由中
披星带月
一视同仁
兴高彩烈
怨天忧人
屈打成招
再接再砺
一倡百和
呱呱堕地
必恭必敬
直捷了当
明火执杖
事过景迁
桀傲不驯
宽洪大量
惟我独尊
以老卖老
张惶失措
一枕黄梁
坚如盘石
相形见拙
混水摸鱼
珠连璧合
惹事生非
得意扬扬
源源本本
出谋画策
浮光略影
遗笑大方
迷天大谎
直接了当
拾遗补阙
金璧辉煌
震聋发聩
闪烁其辞
迭床架屋
杀风景
挺而走险
悬梁刺骨
萎糜不振
如法泡制
一相情愿
鬼哭狼嗥
长嘘短叹
嘻皮笑脸
千头万序
物极必反
夸大其辞
污七八糟
扇风点火
凭白无故
水长船高
小题大作
坐无虚席
无动于中
闲情逸志
回光反照
贪脏枉法
老生常谈
虎视耽耽
按步就班
返朴归真
雄材大略
骄奢淫佚
带罪立功
信口开合
骨瘦如豺
察颜观色
头昏脑胀
归根结柢
断章取意
大放厥辞
纷至踏来
雍荣华贵
敲榨勒索
黄梁美梦
费尽心机
戮力同心
大廷广众
额首称庆
合盘托出
易如翻掌
言简意该
百废具兴
死心踏地
常年累月

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.