2007年10月5日金曜日

Jericho HTML Parserをjythonでつかう

医者の待ち時間で、あまりに暇なので書いてみた。
voxブログのトップページから、タイトルと本文を抜き出して、テキスト化して出力。

from java.net import URL
import java.lang.System.out.println as println
from au.id.jericho.lib.html import Element, Source

s = Source(URL("http://hide-t.vox.com/"))
for e in s.getElementById("alpha-inner").findAllElements("div"):
  if e.getAttributeValue("class") == "post-asset asset":
    for ie in e.findAllElements("h2"):
      title = ie.getTextExtractor().toString()
break
    for ie in e.findAllElements("div"):   
      if ie.getAttributeValue("class") == "asset-content":
        content = ie.getTextExtractor().toString()
break
    println("title: %s\ncontent: %s" % (title, content))


0 件のコメント:

コメントを投稿