「Html Agility Pack」の版間の差分
ナビゲーションに移動
検索に移動
(ページの作成:「'''Html Agility Pack'''とは、主にウェブスクレイピングに用いられるオープンソースのライブラリである。 ==概要== Html Agi...」) |
(相違点なし)
|
2015年3月5日 (木) 01:47時点における版
Html Agility Packとは、主にウェブスクレイピングに用いられるオープンソースのライブラリである。
概要
Html Agility Packを大雑把に説明するとHTMLをXMLに変換してくれるライブラリである。 HTMLのタグが閉じ忘れされていた場合などでも強力に補正した状態のXMLにしてくれるのが目玉機能である。 これによりXPathやLINQ to XMLといった汎用的な手法を用いて解析できるようになる。
Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく文字コードの判別が弱いなどの問題を抱えている。 ウェブクローラー的なものを目指すのであれば、独自でHTMLを取得し、ReadJEncを用いるなどして別途実装した方がいいだろう。
使い方
=環境を構築する
NuGetから一発インストールが一番手っ取り早い。 とくにプラットフォームに依存するようなライブラリでもないためLinux上のMonoやMac上のXamarinでも普通に利用できる。