2007年6月27日水曜日

Jericho HTML Parser 2.4が出てた

仕事でもたまに使っている、Jericho HTML Parser2.4がリリースされていた。
これは、HTML/XMLがぶっ壊れててもそれなりに読めるうえに、extractTextが最高に便利で手放せません(2.4でdeprecatedになったけど、ちゃんと代替手段がある)。
LuceneでIndex作るときとか、mecabを使うときに活躍してます。

StAXと、これがあるから、結局Javaをつかうことになることが多いな。

そのうちサンプルおいてみようかな。



0 件のコメント:

コメントを投稿