差分

ナビゲーションに移動 検索に移動

ウェブ・スクレイピング

708 バイト追加, 2015年3月5日 (木) 01:33
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。
 
もう少し複雑なものでは専用のHTMLパーサー([[HTML]]を解析できるライブラリ)を使用してぶっこ抜くという手法が用いられる。
これらは内部的には上記の正規表現を用いたものから、[[XML]]に変換して解析を行うもの、独自の解析を行うものなど様々である。
 
さらに既存の[[ウェブブラウザ]]のエンジンである[[Gecko]]や[[WebKit]]などを用いて[[JavaScript]]の挙動まで再現してぶっこ抜くという手法もある。
たとえば[[.NET Framework]]で[[GeckoFX]]を用いれば「DOMのreadyイベントを待ってから解析を開始する」などといったことができる。
==主なライブラリ==
匿名利用者

案内メニュー