2012年7月16日月曜日

MoinMoin2.0で日本語コンテンツを検索する

MoinMoin2.0 は検索機能に Whoosh を使っています。 なので、日本語用のAnalyzerを使ってやれば検索出来るはず。ということでやってみました。
日本語が検索出来るだけのとりあえずのものですが https://bitbucket.org/hideaki/moin-2.0 にあります(変更点) 日本語用のAnalyzerには以前作った whoosh-igo のTinySegmenterTokenizerを使いました。

セットアップの記録(フォークしたやつからcloneするなら変更は不要です):
hg clone http://bitbucket.org/thomaswaldmann/moin-2.0 moin-2.0
cd moin-2.0/
DIR=env-pypy PYTHON=/opt/pypy/pypy-c ./quickinstall
. ./env-pypy/bin/activate
pip install whoosh-igo # TinySegmenterTokenizer用
wget https://mhagiwara.googlecode.com/svn/trunk/nltk/jpbook/tinysegmenter.py
vi MoinMoin/storage/middleware/indexing.py
# ↑indexを作る前に使うanalyzerを指定する必要がある
moin index-create -s -i
moin load --file contrib/serialized/items.moin
moin index-build
moin # サーバ起動

初期状態

編集中

編集完了

単語で検索出来る

複数単語でも検索出来る

丸ごとでも検索出来る
変更前だと単語で検索出来ない
変更前も文全体の一致なら検索可能

0 件のコメント:

コメントを投稿