2011年4月17日日曜日

lucene-gosenベースのIgoTokenizerを作成中

地震やら忙しいやらでしばらくWhoosh関係をいじってなかったので、なかなかエンジンがかからず。
そんななか、lucene-gosenの記事を見て、自分でいろいろ作るよりこれに乗った方が間違いなさそうと感じたので、乗ってみました。

結果はこんな感じ。
試した結果

ソース(sf.netで公開しようと思って登録したけど、まだ何にもしてない。パッケージ名にだけ使ってます)
とりあえず作って、NetBeansのプロジェクトごと公開した状態です。


試すには
必要なものをそろえる
  • Solr 3.1.0を展開
  • lucene-gosenの準備(jar作る。辞書は要らないけど)
  • Igoの準備(jar,辞書)
準備
  • IgoTokenizerをチェックアウト
  • libの下に必要なjarを置く(igo, lucene-core, apache-solr-core, lucene-gosen)
  • ant jar
実行
schemaは次のようにフィールド種別を指定する。
<fieldType class="solr.TextField" name="text_ja" positionincrementgap="100">
  <analyzer>
    <tokenizer class="net.sf.igoanalyzer.solr.IgoTokenizerFactory" dicpath="/home/path/to/ipadic">
    </tokenizer>
  </analyzer>
</fieldType>

0 件のコメント:

コメントを投稿