
まだブラウザ使ってるの?ネットで自動収集オープンデータの世界 スクレイピングとクローラによる情報収集のすすめ
2020年8月22日ITが世の中に浸透し、RPAという自動化ツールで仕事したり、Pythonなどのプログラミング言語を学ぶ人や学生が増加している。
それに伴い、Webでのデータ収集も、スクレイピングやクローリングの技術を習得し、ITリテラシーの向上を実現している人が大成功をおさめ始めている。
ビッグデータやAI企業を経営するコークが、オープンデータ、ソーシャルデータの世界を解説する!
動画の内容
まだブラウザ使ってるの?
- インターネットの情報収集といえばWebブラウザ、ネットサーフィン当たり前
- 毎日同じサイトで同じ情報をメモして?
- 専用サービスはアプリダウンロード?
- ↓
- スクレイピング 必要なデータのみを切り取り取得する
- クローラ 自動で複数サイトを自動巡回して、データをためる(Googleなどの検索エンジンのロボットもクローリング)
どういうデータを集めるの?
- 口コミ、噂、流行:Twitter
- ニュース・株・為替:Yahooニュース、Yahooファイナンス
- 商品売れ筋:Amazonランキング、書評
- アプリランキング:App Store、Google Play
- 地図、写真、音声、動画データ
- DB、統計データ、気象、交通、コロナ
- スクレイピング禁止のサイトもあるので注意!
データ収集方法
- ブラウザ:Chrome、チャット:Slack
- Excel VBA、Google Sheets Apps Script
- RPAツール: Winactor、UiPath
- プログラミング言語:Python、Ruby、Node.js etc…
- コマンド: WGet テスト:Selenium
データ形式と正規表現
- Textデータ、HTML、CSS、JavaScript
- XML、CSV、XLSX、JPEG、PDF
- RSS、Atom、Web API、マッシュアップ
- 正規表現の例
- . ^ $ [ ] * + ? | ( )
統計分析と視覚化
- データ分析、解析をして、わかりやすくする(視覚化)
- 翻訳ツール、画像解析、動画解析
- エクセルでもほとんどの分析が可能
- Python プログラミング言語
- NumPy PythonのNo1数学ライブラリ
- Pandas 表や時系列データなどを扱う
- Matoplotlib グラフ描画ライブラリ
- Scikit-lean 機械学習ライブラリ
監視社会 情報を取り返せ!
- ネットで情報抜かれたくなければ、ネットをやめるしかない
- 街で監視カメラに移りたくなければ外出をやめるしかない
- 大手サービスほど個人情報狙われる
- スクレイピングで、情報を集めろ!
- どういう情報が価値があるのかが理解できる
- セキュアな行動にもつながる
- ITリテラシーの向上が重要!