差分
ナビゲーションに移動
検索に移動
'''Html Agility Pack'''とは、主に[[ウェブスクレイピング]]に用いられる[[オープンソース]]の[[ライブラリ]]である。
==概要==
Html Agility Packを大雑把に説明すると[[HTML]]を[[XML]]に変換してくれるライブラリである。
[[HTML]]のタグが閉じ忘れされていた場合などでも強力に補正した状態のXMLにしてくれるのが目玉機能である。
これにより[[XPath]]や[[LINQ to XML]]といった汎用的な手法を用いて解析できるようになる。
Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく[[文字コード]]の判別が弱いなどの問題を抱えている。
[[ウェブクローラー]]的なものを目指すのであれば、独自でHTMLを取得し、[[ReadJEnc]]を用いるなどして別途実装した方がいいだろう。
==使い方==
===環境を構築する==
* [[NuGet]] = https://www.nuget.org/packages/HtmlAgilityPack
* [[ソースコード]] = http://htmlagilitypack.codeplex.com
[[NuGet]]から一発[[インストール]]が一番手っ取り早い。
とくにプラットフォームに依存するようなライブラリでもないため[[Linux]]上の[[Mono]]や[[Mac]]上の[[Xamarin]]でも普通に利用できる。
==関連項目==
*[[ウェブスクレイピング]]
*[[GeckoFX]]
==参考文献==
{{reflist}}
{{stub}}
[[category:.NET Framework]]
==概要==
Html Agility Packを大雑把に説明すると[[HTML]]を[[XML]]に変換してくれるライブラリである。
[[HTML]]のタグが閉じ忘れされていた場合などでも強力に補正した状態のXMLにしてくれるのが目玉機能である。
これにより[[XPath]]や[[LINQ to XML]]といった汎用的な手法を用いて解析できるようになる。
Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく[[文字コード]]の判別が弱いなどの問題を抱えている。
[[ウェブクローラー]]的なものを目指すのであれば、独自でHTMLを取得し、[[ReadJEnc]]を用いるなどして別途実装した方がいいだろう。
==使い方==
===環境を構築する==
* [[NuGet]] = https://www.nuget.org/packages/HtmlAgilityPack
* [[ソースコード]] = http://htmlagilitypack.codeplex.com
[[NuGet]]から一発[[インストール]]が一番手っ取り早い。
とくにプラットフォームに依存するようなライブラリでもないため[[Linux]]上の[[Mono]]や[[Mac]]上の[[Xamarin]]でも普通に利用できる。
==関連項目==
*[[ウェブスクレイピング]]
*[[GeckoFX]]
==参考文献==
{{reflist}}
{{stub}}
[[category:.NET Framework]]