[toc]

はじめに

こんにちは。学部では歴史の勉強をしていた鈴木です。
昨今、データ分析が話題になる機会が増え、「Rによる○○分析」などの書籍が次々に出版されています。しかし、 全くのゼロベースからRを始める情報は少ないのではないでしょうか。そこで、 本記事では、文系・非プログラマのためにRプログラミングの基礎とデータの前処理をゼロから紹介していきたいと思います。

文系のためのR・Rstudio入門②各種インストールとRstudio起動・設定

本連載記事でおこなうこと

  • RやRstudioのインストールから
    • 日本語を扱う際に便利な「Myrica」フォントの紹介など、かゆい部分までおこないます。
  • データ分析に欠かせない「前処理」を中心に
    • 網羅的にRプログラミングの技法を紹介せず、必要な部分に留めます。一連の記事でRが触れるようになりますので、以後は各々書籍やwebで学習していってください。
  • 具体的におこなうのは「Rプログラミングの基礎」
    • dplyrパッケージ(前処理で非常に優れる)および、ggplot2パッケージ(グラフ描画で非常の優れる)も扱います。
  • 用いるデータは「タイタニック」データセット
    • なじみのあるタイタニックデータセットを使うことで楽しみながら前処理を進めていきます。
    • タイタニックデータは ヴァンダービルト大学でダウンロード可能(titanic3.csv)

対象にする読者

  • プログラム未経験者
    • 著者はプログラム未経験者だったので、未経験者の気持ちが分かる?つもりです。
  • 文系
    • 著者は学部時代、歴史の勉強をしていました。
  • Excelは一応使える
    • データを若干でも扱ったことがある方を対象にしています。

そもそもRとは?

  • 統計分析用のプログラミング言語
    • としてはpythonもある。Rとpythonのどちらが良いかについては、TJO氏の記事に良くまとめられています。
    • TJO氏の記事に触れられていないRのメリットとして私が感じるのは、プログラム未経験者にはpythonよりもRの方が分かりやすいのでは、という点です。Rはインデックスの始め方が「1」からになっていますが、pythonは他のプログラム言語と同様に「0」始まりです。Rの場合、1~4番目の数字を指定するには「1:4」と指定しますが、pythonの場合「0:3」と指定します。他のプログラム言語経験者にとってはRの仕様は気持ち悪いようですが、直感的に分かりやすいのはRではないでしょうか。
  • 「データ前処理」「可視化」も得意
    • 「データ分析業務は前処理が8割」(リンク)と呼ばれることがありますが、Rはこのプロセスも得意です。具体的には、データ前処理パッケージ・dplyrと可視化パッケージ・ggplot2を用いることが多いです。これらはtidyverseと呼ばれるパッケージ群を構成する主要パッケージで、R界の「神」と呼ばれるハドリー・ウィッカムが作成しました(リンク)。
    • dplyrによるデータ前処理と、ggplot2による可視化はpythonとの差別化ポイントで、Rを使う大きな理由の一つです(リンク1)(リンク2)(リンク3)。

無料で使える

  • 統合開発環境「Rstudio」も無料で使えます。
    • RstudioはRを使いやすくする統合開発環境。多くの人が用いています。
    • Excel:約1万円。
    • SPSS:数十万円。

ドキュメントが作れるなど、統計分析以外も色々できる

  • Rmarkdownパッケージ
    • 詳しくはKazutan氏のサイトに詳しいですが、Rmarkdownというパッケージを用いることで、ウェブサイトやプレゼンテーションなどのドキュメントを簡単に作ることが可能です。つまり、RとRstudioを用いると、統計分析だけでなくレポーティングまで一気通貫しておこなうことが可能になります。

次回の記事

今回の記事はここまでです。次回はR、Rstudio、プログラムフォントのインストール、Rstudioの設定・起動などをおこなっていきます。