こんにちは。chihiroです。
Linuxとアニメ、マンガネタが多いかも?
イワタバコ科の植物も大好き。写真も撮るかなぁ〜。
そんな日常。
| 7月 2010 | ||||||
|---|---|---|---|---|---|---|
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
IKAKICK - ラッキィ池田事務所
踊り放題! - ラッキィ池田BLOG
TOGETHER - ルー大柴BLOG
浅井企画
日本のLinux情報
Linux Software Search(J)
もじら組
mozilla.org
Mozilla 日本語ローカライズ版リンク集
Mozilla 日本語インストーラ
Japanized Apache Server Project
The Apache Software Foundation
日本PHPユーザー会
PHPマニュアル
CPAN - Comprehensive Perl Archive Network
Qmail
Qmail(Jp1)
Qmail(Jp2)
Binc IMAP
Fedora Project(E)
Fedra JP Project(J)
Vine Linux(J)
Debian(J)
Debian JP Project(J)
Webページから情報を取得する。
Webスクレイピングなんてキーワードが生まれるような分野らしいですが。
RSSがあれば、それも良し。そうでなければどうするか。
HTMLページ内容から情報を抜く必要があるのだが、HTMLのパーサーって、ありそうであまりない。
Rubyに、WebのHTMLページ内容に対する、パーサめいたライブラリ(Hpricot)と、
ページアクセスを操作出来るライブラリ(WWW::Mechanize)があったので、メモ。
gemからインストール。
$ sudo gem install -r hpricot $ sudo gem install -r mechanize
以下のサイトを参考に、irbから簡単に試してみたが、強力過ぎる香りがする。
ある限定されたテーマのRSSフィードを収集し、データベース化してみているのだが、
HpricotとWWW::Mechanizeを使うと、もっと幅広いページの取得が可能になりそう。
データが膨大になるとやり切れないですが...
Posted at 2008/05/05 19:32 in /linux/ruby
ソーシャルブックマークへ登録