「ウェブ・スクレイピング」を編集中

ナビゲーションに移動 検索に移動

警告: ログインしていません。編集を行うと、あなたの IP アドレスが公開されます。ログインまたはアカウントを作成すれば、あなたの編集はその利用者名とともに表示されるほか、その他の利点もあります。

この編集を取り消せます。 下記の差分を確認して、本当に取り消していいか検証してください。よろしければ変更を保存して取り消しを完了してください。

最新版 編集中の文章
16行目: 16行目:
 
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。
 
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。
 
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。
 
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。
 
もう少し複雑なものでは専用のHTMLパーサー([[HTML]]を解析できるライブラリ)を使用してぶっこ抜くという手法が用いられる。
 
これらは内部的には上記の正規表現を用いたものから、[[XML]]に変換して解析を行うもの、独自の解析を行うものなど様々である。
 
 
さらに既存の[[ウェブブラウザ]]のエンジンである[[Gecko]]や[[WebKit]]などを用いて[[JavaScript]]の挙動まで再現してぶっこ抜くという手法もある。
 
たとえば[[.NET Framework]]で[[GeckoFX]]を用いれば「DOMのreadyイベントを待ってから解析を開始する」などといったことができる。
 
  
 
==主なライブラリ==
 
==主なライブラリ==

MonoBookへの投稿はすべて、他の投稿者によって編集、変更、除去される場合があります。 自分が書いたものが他の人に容赦なく編集されるのを望まない場合は、ここに投稿しないでください。
また、投稿するのは、自分で書いたものか、パブリック ドメインまたはそれに類するフリーな資料からの複製であることを約束してください(詳細はMonoBook:著作権を参照)。 著作権保護されている作品は、許諾なしに投稿しないでください!

このページを編集するには、下記の確認用の質問に回答してください (詳細):

取り消し 編集の仕方 (新しいウィンドウで開きます)

このページで使用されているテンプレート:

このページは 1 個の隠しカテゴリに属しています: