[toc]
はじめに
こんにちは。学部では歴史の勉強をしていた鈴木です。
昨今、データ分析が話題になる機会が増え、「Rによる○○分析」などの書籍が次々に出版されています。しかし、 全くのゼロベースからRを始める情報は少ないのではないでしょうか。そこで、 本記事では、文系・非プログラマのためにRプログラミングの基礎とデータの前処理をゼロから紹介していきたいと思います。
文系のためのR・Rstudio入門②各種インストールとRstudio起動・設定
本連載記事でおこなうこと
- RやRstudioのインストールから
- 日本語を扱う際に便利な「Myrica」フォントの紹介など、かゆい部分までおこないます。
- データ分析に欠かせない「前処理」を中心に
- 網羅的にRプログラミングの技法を紹介せず、必要な部分に留めます。一連の記事でRが触れるようになりますので、以後は各々書籍やwebで学習していってください。
- 具体的におこなうのは「Rプログラミングの基礎」
- dplyrパッケージ(前処理で非常に優れる)および、ggplot2パッケージ(グラフ描画で非常の優れる)も扱います。
- 用いるデータは「タイタニック」データセット
- なじみのあるタイタニックデータセットを使うことで楽しみながら前処理を進めていきます。
- タイタニックデータは ヴァンダービルト大学でダウンロード可能(titanic3.csv)
対象にする読者
- プログラム未経験者
- 著者はプログラム未経験者だったので、未経験者の気持ちが分かる?つもりです。
- 文系
- 著者は学部時代、歴史の勉強をしていました。
- Excelは一応使える
- データを若干でも扱ったことがある方を対象にしています。
そもそもRとは?
- 統計分析用のプログラミング言語
- としてはpythonもある。Rとpythonのどちらが良いかについては、TJO氏の記事に良くまとめられています。
- TJO氏の記事に触れられていないRのメリットとして私が感じるのは、プログラム未経験者にはpythonよりもRの方が分かりやすいのでは、という点です。Rはインデックスの始め方が「1」からになっていますが、pythonは他のプログラム言語と同様に「0」始まりです。Rの場合、1~4番目の数字を指定するには「1:4」と指定しますが、pythonの場合「0:3」と指定します。他のプログラム言語経験者にとってはRの仕様は気持ち悪いようですが、直感的に分かりやすいのはRではないでしょうか。
- 「データ前処理」「可視化」も得意
無料で使える
- 統合開発環境「Rstudio」も無料で使えます。
- RstudioはRを使いやすくする統合開発環境。多くの人が用いています。
- Excel:約1万円。
- SPSS:数十万円。
ドキュメントが作れるなど、統計分析以外も色々できる
- Rmarkdownパッケージ
- 詳しくはKazutan氏のサイトに詳しいですが、Rmarkdownというパッケージを用いることで、ウェブサイトやプレゼンテーションなどのドキュメントを簡単に作ることが可能です。つまり、RとRstudioを用いると、統計分析だけでなくレポーティングまで一気通貫しておこなうことが可能になります。
次回の記事
今回の記事はここまでです。次回はR、Rstudio、プログラムフォントのインストール、Rstudioの設定・起動などをおこなっていきます。