watanet personal side-B

Welcome

こんにちは。chihiroです。
Linuxとアニメ、マンガネタが多いかも?
イワタバコ科の植物も大好き。写真も撮るかなぁ〜。
そんな日常。

Contents

TOP
Message Board
コンピュータ関連

Search


Calender

7月 2010
       

Categories

Archives

2008年 (1)
5月 (1)

Contact

RSS


あわせて読みたいブログパーツ

Smartfm_banner_2

Multicolumn Twitter Client on Web

Firefox 2 無料ダウンロード

ご近所さん

超人

IKAKICK - ラッキィ池田事務所
踊り放題! - ラッキィ池田BLOG
TOGETHER - ルー大柴BLOG
浅井企画

Linux

日本のLinux情報
Linux Software Search(J)

もじら組
mozilla.org
Mozilla 日本語ローカライズ版リンク集
Mozilla 日本語インストーラ

Japanized Apache Server Project
The Apache Software Foundation
日本PHPユーザー会
PHPマニュアル
CPAN - Comprehensive Perl Archive Network

Qmail
Qmail(Jp1)
Qmail(Jp2)
Binc IMAP

日本Sambaユーザー会

Fedora Project(E)
Fedra JP Project(J)
Vine Linux(J)
Debian(J)
Debian JP Project(J)

とほほのWWW入門

トップページ > linux >
2008/05/05 (Mon)

RubyでWebスクレイピング 〜 HpricotとWWW::Mechanize

Webページから情報を取得する。
Webスクレイピングなんてキーワードが生まれるような分野らしいですが。

RSSがあれば、それも良し。そうでなければどうするか。
HTMLページ内容から情報を抜く必要があるのだが、HTMLのパーサーって、ありそうであまりない。

Rubyに、WebのHTMLページ内容に対する、パーサめいたライブラリ(Hpricot)と、 ページアクセスを操作出来るライブラリ(WWW::Mechanize)があったので、メモ。

gemからインストール。

$ sudo gem install -r hpricot
$ sudo gem install -r mechanize

以下のサイトを参考に、irbから簡単に試してみたが、強力過ぎる香りがする。
ある限定されたテーマのRSSフィードを収集し、データベース化してみているのだが、 HpricotとWWW::Mechanizeを使うと、もっと幅広いページの取得が可能になりそう。

データが膨大になるとやり切れないですが...


Posted at 2008/05/05 19:32 in /linux/ruby
ソーシャルブックマークへ登録 ブックマークに追加する