「Html Agility Pack」の版間の差分
ページの作成:「'''Html Agility Pack'''とは、主にウェブスクレイピングに用いられるオープンソースのライブラリである。 ==概要== Html Agi...」 |
編集の要約なし |
||
| 1行目: | 1行目: | ||
'''Html Agility Pack'''とは、主に[[ウェブスクレイピング]]に用いられる[[オープンソース]]の[[ライブラリ]]である。 | '''Html Agility Pack'''とは、主に[[ウェブスクレイピング]]に用いられる[[.NET]]向けの[[オープンソース]]の[[ライブラリ]]である。 | ||
==概要== | ==概要== | ||
| 6行目: | 6行目: | ||
これにより[[XPath]]や[[LINQ to XML]]といった汎用的な手法を用いて解析できるようになる。 | これにより[[XPath]]や[[LINQ to XML]]といった汎用的な手法を用いて解析できるようになる。 | ||
Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく[[文字コード]]の判別が弱いなどの問題を抱えている。 | Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく[[文字コード]]の判別が弱いなどの問題を抱えている。[[ウェブクローラー]]的なものを目指すのであれば、独自でHTMLを取得し、[[ReadJEnc]]を用いるなどして別途実装した方がいいだろう。 | ||
[[ウェブクローラー]]的なものを目指すのであれば、独自でHTMLを取得し、[[ReadJEnc]]を用いるなどして別途実装した方がいいだろう。 | |||
==使い方== | ==使い方== | ||
===環境を構築する== | ===環境を構築する=== | ||
* [[NuGet]] = https://www.nuget.org/packages/HtmlAgilityPack | * [[NuGet]] = https://www.nuget.org/packages/HtmlAgilityPack | ||
* [[ソースコード]] = http://htmlagilitypack.codeplex.com | * [[ソースコード]] = http://htmlagilitypack.codeplex.com | ||
2015年5月14日 (木) 01:24時点における最新版
Html Agility Packとは、主にウェブスクレイピングに用いられる.NET向けのオープンソースのライブラリである。
概要[編集 | ソースを編集]
Html Agility Packを大雑把に説明するとHTMLをXMLに変換してくれるライブラリである。 HTMLのタグが閉じ忘れされていた場合などでも強力に補正した状態のXMLにしてくれるのが目玉機能である。 これによりXPathやLINQ to XMLといった汎用的な手法を用いて解析できるようになる。
Html Agility Packにはウェブページを取得するメソッドも用意されているが、あくまで簡易的なものでありキャッシュ機能などもなく文字コードの判別が弱いなどの問題を抱えている。ウェブクローラー的なものを目指すのであれば、独自でHTMLを取得し、ReadJEncを用いるなどして別途実装した方がいいだろう。
使い方[編集 | ソースを編集]
環境を構築する[編集 | ソースを編集]
NuGetから一発インストールが一番手っ取り早い。 とくにプラットフォームに依存するようなライブラリでもないためLinux上のMonoやMac上のXamarinでも普通に利用できる。