2011年2月21日月曜日

Whoosh用の日本語トークナイザを追加(TinySegmenterTokenizer)

辞書なしで使えれば手軽だと思ったので、TinySegmenter版も作りました。

PyPI whoosh-igo(パッケージ名とりあえずそのまま)
Launchpad Japanese Tokenizers for whoosh/

モジュール名(IgoTokenizer)がちょっとカバー範囲が広すぎると思ったので、
Tokenizerを追加したついでに、WhooshJapaneseTokenizerに変更しました。
長いけどこれならぶつかる可能性が減ったはず…

0 件のコメント:

コメントを投稿