n-3104の備忘録
更新履歴
取得中です。

Java > HTMLParser


※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

JavaでHTMLを解析するライブラリは色々あるようだ。

  • javax.swing.text.html.parser パッケージ
  • HttpUnit
  • HTMLParser
  • Jericho HTML Parser


HTMLParser

http://htmlparser.sourceforge.net/
単純に解析するだけでなく、HTTPリクエストを自分で投げて、リンクのみを抽出したり、特定のページをキャプチャしたりできるようだ。

Jericho HTML Parser

http://jerichohtml.sourceforge.net/doc/index.html
不正な形式も含めたHTMLの解析に特化しており、JSPやPHPのタグ解析も可能なようだ。テンプレートエンジンとしても利用できそうな感じ。
合計: -
今日: -
昨日: -