まだブラウザ使ってるの?ネットで自動収集オープンデータの世界 スクレイピングとクローラによる情報収集のすすめ

まだブラウザ使ってるの?ネットで自動収集オープンデータの世界 スクレイピングとクローラによる情報収集のすすめ

2020年8月22日 0 投稿者: cokekouichi

ITが世の中に浸透し、RPAという自動化ツールで仕事したり、Pythonなどのプログラミング言語を学ぶ人や学生が増加している。

それに伴い、Webでのデータ収集も、スクレイピングやクローリングの技術を習得し、ITリテラシーの向上を実現している人が大成功をおさめ始めている。

ビッグデータやAI企業を経営するコークが、オープンデータ、ソーシャルデータの世界を解説する!

動画の内容

まだブラウザ使ってるの?

  • インターネットの情報収集といえばWebブラウザ、ネットサーフィン当たり前
  • 毎日同じサイトで同じ情報をメモして?
  • 専用サービスはアプリダウンロード?
  •    ↓
  • スクレイピング 必要なデータのみを切り取り取得する
  • クローラ 自動で複数サイトを自動巡回して、データをためる(Googleなどの検索エンジンのロボットもクローリング)

どういうデータを集めるの?

  • 口コミ、噂、流行:Twitter
  • ニュース・株・為替:Yahooニュース、Yahooファイナンス
  • 商品売れ筋:Amazonランキング、書評
  • アプリランキング:App Store、Google  Play
  • 地図、写真、音声、動画データ
  • DB、統計データ、気象、交通、コロナ
  • スクレイピング禁止のサイトもあるので注意!

データ収集方法

  • ブラウザ:Chrome、チャット:Slack
  • Excel VBA、Google Sheets Apps  Script
  • RPAツール: Winactor、UiPath
  • プログラミング言語:Python、Ruby、Node.js etc…
  • コマンド: WGet  テスト:Selenium

データ形式と正規表現

  • Textデータ、HTML、CSS、JavaScript
  • XML、CSV、XLSX、JPEG、PDF
  • RSS、Atom、Web API、マッシュアップ
  • 正規表現の例
  •    .   ^   $   [   ]   *   +   ?   |   (   )

統計分析と視覚化

  • データ分析、解析をして、わかりやすくする(視覚化)
  • 翻訳ツール、画像解析、動画解析
  • エクセルでもほとんどの分析が可能
  • Python プログラミング言語
  • NumPy PythonのNo1数学ライブラリ
  • Pandas 表や時系列データなどを扱う
  • Matoplotlib グラフ描画ライブラリ
  • Scikit-lean 機械学習ライブラリ

監視社会 情報を取り返せ!

  • ネットで情報抜かれたくなければ、ネットをやめるしかない
  • 街で監視カメラに移りたくなければ外出をやめるしかない
  • 大手サービスほど個人情報狙われる
  • スクレイピングで、情報を集めろ!
  • どういう情報が価値があるのかが理解できる
  • セキュアな行動にもつながる
  • ITリテラシーの向上が重要!