「Html Agility Pack」を編集中
ナビゲーションに移動
検索に移動
この編集を取り消せます。 下記の差分を確認して、本当に取り消していいか検証してください。よろしければ変更を保存して取り消しを完了してください。
最新版 | 編集中の文章 | ||
1行目: | 1行目: | ||
− | '''Html Agility Pack'''とは、主に[[ウェブスクレイピング]]に用いられる | + | '''Html Agility Pack'''とは、主に[[ウェブスクレイピング]]に用いられる[[オープンソース]]の[[ライブラリ]]である。 |
==概要== | ==概要== | ||
6行目: | 6行目: | ||
これにより[[XPath]]や[[LINQ to XML]]といった汎用的な手法を用いて解析できるようになる。 | これにより[[XPath]]や[[LINQ to XML]]といった汎用的な手法を用いて解析できるようになる。 | ||
− | Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく[[文字コード]]の判別が弱いなどの問題を抱えている。[[ウェブクローラー]]的なものを目指すのであれば、独自でHTMLを取得し、[[ReadJEnc]]を用いるなどして別途実装した方がいいだろう。 | + | Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく[[文字コード]]の判別が弱いなどの問題を抱えている。 |
+ | [[ウェブクローラー]]的なものを目指すのであれば、独自でHTMLを取得し、[[ReadJEnc]]を用いるなどして別途実装した方がいいだろう。 | ||
==使い方== | ==使い方== | ||
− | ===環境を構築する | + | ===環境を構築する== |
* [[NuGet]] = https://www.nuget.org/packages/HtmlAgilityPack | * [[NuGet]] = https://www.nuget.org/packages/HtmlAgilityPack | ||
* [[ソースコード]] = http://htmlagilitypack.codeplex.com | * [[ソースコード]] = http://htmlagilitypack.codeplex.com |