Coder Social home page Coder Social logo

chinesewordembedding's Introduction

汉字语料向量库

Chinese Word Embedding

Official Website

官方网址(博客):

https://xhou.me/chinese-word-embedding/

简介

汉字是中华文化的瑰宝,是几千年文化沉淀的产物,其本身意义早已脱离最早的象形符号,而是一种包含了古人**,意境,行为方式的结晶。汉字相比于世界上其他的文字,有着其无可替代的特殊性。相比于拉丁文,汉字并非由少量字母构成,而是由上万个方块字组成。每一个汉字有其单独的意义。因此,拉丁文中由几个字母组成的单词,成为一个word,而每一个汉字也都可称为一个Word。

本文基于Gensim.Word2Vec,将每个汉字投射到向量空间。

向量空间

关于汉字的向量空间大小,目前没有,也很难有定论。这里我们可以依靠粗略的估计,给出可能的结果。

汉字的数量:

汉字由于是开放集合,数量并没有准确数字,日常所使用的汉字约为几千字。汉字数量的首次统计是汉朝许慎在《说文解字》中进行的,共收录9353字。其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》,收字31319个;另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书。 近代编集的字典收字量更高,如清朝的《康熙字典》收字47035个;**的《中文大字典》收字49905个;大陆的《汉语大字典》(第一版)收字54678个,(第二版)收字60370个;最新的《中华字海》收字85568个,包含了《汉语大字典》、《中文大字典》、《康熙字典》和《说文解字》的所有收字;日本的《大汉和字典》收字48902个,另有附录1062个。21世纪已出版的字数最多的是日本《今昔文字镜》,收字17万个。 --《维基百科》

就本文使用数据集而言,古诗词使用汉字8907个,明清小说使用汉字xxxx个,全部汉字共xxxxx个。这给出了向量空间大小之上限。

另一方面,就汉字特征而言,近现代普通话发音有四音,加之轻声。若以声调变化来分,则分为三点,起中尾,加之是否轻读,可成4点。因此向量大小多四。

就汉字读音来说,21声母,39韵母。出去不能发音的组合之外,一共约410个音节。音节本身并非特征,他可由组合而成,因此发音特征占有不到21+39=60个空间。

就语言意境来说,喜怒哀乐,悲欢离合。并且夹杂其成分的组合,恐怕难以估计。但就单一成分而言,以最粗略之估计,也当有十余种。加之其他各种复杂难以言表之情态变化。保守以36数估。

故此,总特征数当为4+60+36=100.

使用方法

from gensim import Word2Vec
model = Word2Vec.load("*.w2v")

更多请参见Gensim.Word2Vec

结果

Input=
model.wv.most_similar('好')

Output=
('愛', 0.5527015328407288),
('喜', 0.5114672183990479),
('賞', 0.509137749671936),
('有', 0.5064948201179504),
('美', 0.4867051839828491),
('少', 0.47607749700546265),
('遠', 0.4758395552635193),
('樂', 0.4729122221469879),
('此', 0.4720180034637451),
('得', 0.4710419178009033)

结语

如有建议,需求等问题,欢迎联系。共建21世纪最完美的汉字语料数据集!

License: MIT

chinesewordembedding's People

Contributors

imhlq avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.