指文字認識用テキストコーパス構築の前に、日本の指文字が何種類あるか考えよう。
- 50音(あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをん)46種
- 濁音(ゔがぎぐげござじずぜぞだぢづでどばびぶべぼ)21種
- 半濁音(ぱぴぷぺぽ)5種
- 拗音・促音(ぁぃぅぇぉっゃゅょゎ)10種
- 長音(ー|)2種
合計なんと84種。
実際に指文字を覚えるときは、50音を覚えさえすれば、50音のときと手指の形状は同じで、指文字を横に動かすと濁音、上向きに動かすと半濁音、手前に引くと拗音・促音を表すことができる。それでも46種の手指の形状を覚える必要がる。
音声コーバスでは音素を最小単位とし、母音(C)、子音(V)の三つ組みCVC・VCVがバランスよく収録されるよう、考えられて構築されている。指文字コーパスにおける最小単位は、さっき挙げた84種の文字として考える。連続する文字のバランスを考慮するため二つの文字の組みをバランスよく収録するとき、二つ組の指文字パターンは
- 【具体的にクロスワード を作成する無料ツールと方法】 | クロスワード.jp
- 無料ダウンロード:クロスワードJP単語集をダウンロード
- 『現代日本語書き言葉均衡コーパス』語彙表 現代日本語書き言葉均衡コーパス(BCCWJ)
- 語彙表データをダウンロード
- 利用上の注意は同ページ内にある解説ファイルを参照してください。
- 郵便番号データダウンロード - 日本郵便
- 読み仮名データの促音・拗音を小書きで表記するものをダウンロード
- openBD
- APIを使用して本のタイトルを取得
src/create_japanese_blbl_list.py
がAPIを使用して日本の書誌タイトルを取得するコードの例です
こちらの論文がコーバス構築方法の参考になるかと思います。
- 江本 祐太, 宮島 千代美, 伊藤 克亘. HMMに基づく連続指文字認識・合成用コーパスの構築. 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報. 2005, vol.105 , no.295, p.53-58.
- @redgum775 (Twitter)