2011年2月27日日曜日

WhooshのTokenizer追加

IgoTokenizerに加えて
  • TinySegmenterTokenizer
  • MeCabTokenizer
を追加しました。

さらに、FeatureFilter(素性フィルタ)の追加と、IgoのTaggerをインデックスに保存しないモードを追加しました。

使い方
tk = WhooshJapaneseTokenizer.IgoTokenizer(igo.Tagger.Tagger('ipadic'))
tk = tk | WhooshJapaneseTokenizer.Filters.FeatureFilter([u'^助詞,係助詞.*$'])

0 件のコメント:

コメントを投稿