2010年11月28日日曜日

Igo-pythonの導入メモ

igo-pythonを導入する一連の手順を書いてなかったので、ここに纏めておきます。

インストール

$ easy_install igo-python
もしくはhttp://pypi.python.org/pypi/igo-python/からソース配布物をダウンロード&展開して
python setup.py install

辞書のコンパイル

辞書作成はJava版のIgoで行うのでJavaが必要です。
ローカル版
Igoのサイトの手順そのままです。
準備
  • igo-0.4.2.jarの入手
  • 辞書のダウンロードと展開
$ java -cp igo-0.4.2.jar net.reduls.igo.bin.BuildDic コンパイル済み辞書出力先 ダウンロードした辞書を展開したところ 辞書の文字セット
$ java -cp igo-0.4.2.jar net.reduls.igo.bin.BuildDic ipadic mecab-ipadic-2.7.0-20070801 EUC-JP
GAE版
igo-gaeの手順です。 ローカル版との違いは使用するjarがigo-0.4.2-gae.jarなだけ。igo-0.4.2-gae.jarはigo-gaeのgithubから入手できます。

動作確認

ローカル版
$ python
Python 2.6.6 (r266:84292, Oct  9 2010, 11:40:09) 
[GCC 4.4.5] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> from igo.Tagger import Tagger
>>> for m in Tagger('ipadic').parse(u'すもももももももものうち'):
...   print m.surface, m.feature, m.start
... 
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ 0
も 助詞,係助詞,*,*,*,*,も,モ,モ 3
もも 名詞,一般,*,*,*,*,もも,モモ,モモ 4
も 助詞,係助詞,*,*,*,*,も,モ,モ 6
もも 名詞,一般,*,*,*,*,もも,モモ,モモ 7
の 助詞,連体化,*,*,*,*,の,ノ,ノ 9
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ 10
>>>
GAE版辞書をローカルで
>>> for m in Tagger('ipadic_gae', gae=True).parse(u'すもももももももものうち'):
...   print m.surface, m.feature, m.start... 
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ 0
も 助詞,係助詞,*,*,*,*,も,モ,モ 3
もも 名詞,一般,*,*,*,*,もも,モモ,モモ 4
も 助詞,係助詞,*,*,*,*,も,モ,モ 6
もも 名詞,一般,*,*,*,*,もも,モモ,モモ 7
の 助詞,連体化,*,*,*,*,の,ノ,ノ 9
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ 10
GAEで
@norioさんが置かれた gist: 716998 - igo-python gae test- GitHub https://gist.github.com/716998 で試すのが良いと思います。

0 件のコメント:

コメントを投稿