「ウェブ・スクレイピング」の版間の差分

 
(2人の利用者による、間の2版が非表示)
1行目: 1行目:
'''ウェブ・スクレイピング'''([[英語]]:web scraping)とは、[[ウェブ]]上の[[HTML]]などから機械的に[[データ]]を抜き出すことを言う。単にスクレイピングと呼ばれることも多い。
'''ウェブ・スクレイピング'''([[英語]]:web scraping)とは、[[ウェブ]]上の[[HTML]]などから機械的に[[データ]]を抜き出すことを言う。単に「スクレイピング」と呼ばれることも多い。


==概要==
==概要==
31行目: 31行目:
===Ruby===
===Ruby===
*[[Nokogiri]]
*[[Nokogiri]]
===.NET===
===.NET===
*[[AngleSharp]]
*: 最近の流行りらしい。
*[[Html Agility Pack]]
*[[Html Agility Pack]]
*:かなり精度は高い。手軽。並列処理にも強い。
*:かなり精度は高い。手軽。並列処理にも強い。
*[[GeckoFX]]
*[[GeckoFX]]
*:[[Firefox]]そのもの。[[iOS]]や[[Android]]のアプリ開発で頻出する[[WebView]]に類似するもので、[[HTML5]]かつほぼ[[JavaScript]]だけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。
*:[[Firefox]]そのものを利用する。[[iOS]]や[[Android]]のアプリ開発で頻出する[[WebView]]に類似するもので、[[HTML5]]かつほぼ[[JavaScript]]だけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。
 
=== その他 ===
* [[Selenium]]
*: あらゆる[[言語]]に[[移植]]されているぞ。速度と[[メモリリーク]]させ無視できるなら無敵だ。


==関連項目==
==関連項目==