頭のなかにあるアイデア

IT系の記事とかサービスとか見ていて思うのはですね。

クローラーってハイパー便利っすねって事です。

というか、インターネット上でdemographic dataをひねり出そうとしたら誰かが整備したデータを見つけるか、自分でサイトやサービスから抽出するしか無いわけですよね。

そんでもってAPIとかがなければ自分でクローラー作ってデータを集めるしか無いわけですよね。多分。

ということで最近どんな糞なものでもいいからとりあえずクローラーを作ってみたいなと思ってる毎日なんですよ。

そんな中、兄貴から一冊の本が紹介されました。


ちなみに当ブログはバリバリアフィリエイトしてます。KPIっぽいものも設定して解析やってます。是非買って僕にサーバー代をくださいw

 

なんとデータサイエンティストの最強ツールと呼ばれているエクセルでクローラーを作ってしまおうという謎な試みをしている本です。

本がまだ手元にないのでなんとも言えないのですが、恐らくクローリングした結果をエクセルファイルに落としこんでくれるんだろうなと淡い期待をしております。

でですね、まだ読んでないんですが目次を見ながら勝手に本の中身を妄想していまして。

その妄想の結果によると、この本はどうやらVBAでIEを扱って情報を集めるというプログラムを組むのが目的となっているみたいです。(サンプルとしてはツタヤの新着DVDの一覧とかを出力出来るみたいです)

ん〜。VBAでRって扱えないのかな?
http://mjin.doshisha.ac.jp/R/AIZAKI/REXCEL4.pdf

こういうのがあるくらいだから出来てもおかしくは無さそう。

もし、クローリングしたいページがphp+dbの出力がされているとしたら、全てのページは同じ構造になるはず。

そしたら数ページ分手入力で欲しいデータセット作って、ニューラルネットワーク教育して全部のデータを抜き出せたりしないのかな?(クローリングとは言わないのかなこれ?)

こんな妄想を最近しております。

まぁこれやってなんのデータ抜き出すんだね君?って言われる気がするんですが・・・

カテゴリー: R, データマイニング, 世間話 パーマリンク

コメントを残す