Html Agility Pack

提供: MonoBook
2015年5月14日 (木) 01:24時点における153.174.184.145 (トーク)による版
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

Html Agility Packとは、主にウェブスクレイピングに用いられる.NET向けのオープンソースライブラリである。

概要[編集 | ソースを編集]

Html Agility Packを大雑把に説明するとHTMLXMLに変換してくれるライブラリである。 HTMLのタグが閉じ忘れされていた場合などでも強力に補正した状態のXMLにしてくれるのが目玉機能である。 これによりXPathLINQ to XMLといった汎用的な手法を用いて解析できるようになる。

Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく文字コードの判別が弱いなどの問題を抱えている。ウェブクローラー的なものを目指すのであれば、独自でHTMLを取得し、ReadJEncを用いるなどして別途実装した方がいいだろう。

使い方[編集 | ソースを編集]

環境を構築する[編集 | ソースを編集]

NuGetから一発インストールが一番手っ取り早い。 とくにプラットフォームに依存するようなライブラリでもないためLinux上のMonoMac上のXamarinでも普通に利用できる。

関連項目[編集 | ソースを編集]

参考文献[編集 | ソースを編集]