[toc]
対象
- python環境が整っている
- pythonに関してある程度の知識がある
- pip installやconda installが使える
- jupyter notebookが使える
- Google Chromeが入っている
基本事項
WEBスクレイピングとは
WEBページから情報を抽出することです。
ネットにデータがあふれていますが、そのデータを自分なりにまとめて、大学の講義のレポートに活用したり、趣味で分析したいというときに、WEBからいちいちコピー&ペーストして情報を抜き出すのは面倒ですよね?
そんなときに便利なのが、WEBスクレイピングです。欲しい情報を自動であったり、定期的に抽出できたりします。今回はWEBスクレイピングの基本事項と必要最低限の環境構築を紹介していきます。
ここでは、 python + Selenium でスクレイピングを行うことを前提に説明していきます。
※python + Seleniumとはスクレイピングを行う手段の一つです。他にもスクレイピングの手段として、pythonを用いているものや他言語をもちいているものもあり、多種多様ですが、pythonをもちいると、pandas(データの扱いが便利)が使えることや調べた際に情報量が多い等のメリットがあります。
WEBスクレイピング②「実践編」 ~対象となるページを知る~
注意事項
WEBスクレイピングは、使い方を間違えてしまうと対象のWEBサーバーに負荷をかけてしまう可能性があります。そのWEBページの利用規約をしっかり読んで、正しく活用する必要があります。
環境構築
pythonの環境が整っていることを前提として、説明していきます。
①Seleniumをインストールする
#pip
pip install selenium
#conda
conda install -c conda-forge selenium
②ChromeDriverをインストールする
http://chromedriver.chromium.org/downloads でお使いのChromeのバージョンに合ったChromeDriverをインストールします。
Chromeのバージョンの確認方法は、右上の「Google Chromeの設定」→「ヘルプ」→ 「Google Chrome について」から確認できます。
自分のOSに合ったファイルをダウンロードしてください。
windowsであれば、chromedriver win32.zipをダウンロードします。
ダウンロード後、解凍し、PATHが通っている場所にchromedriver.exeファイルを移動させてください。
(注)chromeが自動アップデートされると、webdriverの方は自動アップデートではないため、エラーがでることがあるので、定期的にchromeのバージョンに合わせるようにwebdriverもアップデートする必要があります。
※Windowsで、PATHは「環境変数を編集」で確認することができます。PATHが通っているとは、このPathに登録されている場所ということです。
以上で、環境構築は終了です。次回は実際にスクレイピングをどのようにするかについて説明していきます。