日本語のテキストをもとに、頻出名詞と類似した語彙を調べ、ファイル出力します。
- Mecab を用い、日本語テキストより頻出*名詞を抽出します。また、テキストを分かち書きし、2の処理に備えます。(1_prepare.py)
- Word2Vec を用いて学習し、モデルを作成します。(2_w2v.py)
- 2で作成してモデルを用い、1で抽出した頻出名詞のそれぞれに対して、類似した語彙を調べます。(3_similer.py)
- 頻出名詞とは、一般名詞のうち、使用頻度がTOP10であるものとしました
- 解析対象のデータを用意します
- ./data/hogegoge/in out の構成で作成し、 utf-8 でエンコードしたファイルを置いてください
- サンプルデータを ./data/sample/in に置いてします。(ディケンズのクリスマス・キャロル from 青空文庫)
- データの配置場所を指定します
- ./common.py
- 実行します
$ ./all.sh
$ python 1_prepare.py
$ python 2_w2v.py
$ python 3_similer.py
気が向いたら修正します。
- 日本語テキストの配置をハードコーディングしています。引数で渡したい。