日本語解析ライブラリMeCabを使う際の、前処理を行うためのpython用ライブラリOcabです。
Mecabを雌株と見たてて、雄株ことOcabと命名。
使い方の詳細は、こちらを参照してください。
単体で使うときは、以下のように使います。
$ python Ocab.py 南アルプスの天然水-Sparking*Lemon+レモン一絞り
input : 南アルプスの天然水-Sparking*Lemon+レモン一絞り
normalized: 南アルプスの天然水-Sparking*Lemon+レモン一絞り
wakati : 南アルプスの天然水 Sparking Lemon レモン 一 絞る
rmv st wds: 南アルプスの天然水 Sparking Lemon レモン 絞る
ライブラリとして使うときは、こんな感じです。
$ python
from Ocab import Ocab, Regexp
c = Regexp()
text1 = c.normalize("南アルプスの天然水-Sparking*Lemon+レモン一絞り")
print(text1) # 南アルプスの天然水-Sparking*Lemon+レモン一絞り
m = Ocab(target=["名詞","動詞","形容詞","副詞"])
text2 = m.wakati(text1)
print(text2) # 南アルプスの天然水 Sparking Lemon レモン 一 絞る
text3 = m.removeStoplist(text2, [])
print(text3) # 南アルプスの天然水 Sparking Lemon レモン 絞る
m = Ocab(target=["名詞","動詞","形容詞","副詞"])
の部分でもっといろいろ指定できたりしますが、
そこはコード読んでください。
This program is applied MIT License.