本記事は、
「R言語の独学におすすめ本について紹介して欲しい」
「R言語を独学で初めて学習するんだけど、どれから勉強していいかわからない」
という要望にお答えいたします。
こんにちは。EXCELでのデータ分析に限界を感じ初めて、Rを勉強しているインプロです。
Rはデータ分析やデータ解析、さらには機械学習を実践する上で非常に有効なフリーウェアです。
Pythonと比較されておりますが、Rでは特にデータ分析・データ解析(教師あり)が得意だと言われています。
そんなRですが独学する上で、「どれから始めるべきなのか」がわかりにくいです。また、「始めても挫折してしまった」、という人もいます。
今回は、これまでRを独学で学習してきて参考になった本を紹介しようと思います。
導入書(プログラミング不要・Rコマンダー)
「統計ソフト「R」超入門 実例で学ぶ初めてのデータ解析」はブルーバックスから出ているRの入門です。
プログラミングに触れたことがない人や、苦手意識がある人向けにも最適です。
本書では、Rの機能の一つである「Rコマンダー(R commander)」を用いて統計解析例を示してくれます。どんな機能があるのか、どんな分析ができるのかがわかります。
Rコマンダーとは、Rの機能の一つでGUI(プログラミングを使わずマウスで操作すること)でデータ分析するものです。
プログラミングを使用せずに、Rコマンダーで様々な分析方法を教えてくれます。
このRコマンダーは凄いです。相関行列や3Dプロットなど下記のようなグラフが一瞬で描けます。EXCELではこうはいきません。
簡単な統計解析から単回帰分析、重回帰分析、ロジスティック回帰などを教えてくれます。有意差検定が簡単にできるのも魅力的です。
このRコマンダーを使っていると「JMPなどの専門ソフトいらなくない?」と思えてしまうこともあります。
ただ、細かい設定をして分析しようとすると、Rコマンダーでは限界があるので、最終的にはプログラミングを勉強することをおすすめしたいです。
【目次】第1章「R」ってなに? 第2章 Rを使うための準備 第3章 Rコマンダーを使ってみよう 第4章 データ解析を始める前に 第5章 データの特徴を探る 第6章 変数間の関係を探る 第7章 平均に関する推定と検定 第8章 分散に関する検定 第9章 分散分析 第10章 回帰分析 第11章 比率に関する推定と検定 第12章 ロジスティック回帰分析 第13章 データセットの準備 第14章 変数およびデータの管理
Amazonで試し読みができます。
「Rコマンダーで多変量解析をしたい!」という人は、以下のような本もあります。重回帰分析、主成分分析、判別分析、クラスター分析など、上記の本よりも一歩先を進んだ本です。
超入門者
「はじめてのR: ごく初歩の操作から統計解析の導入まで」はRの入門書で、ソフト導入から分析までかなり丁寧に解説されています。
多機能な統計解析ソフト「R」ですが、統計学の入門的知識があっても、このソフトに敷居の高さを感じる人は少なくないようで、そんな人のために書かれています。
はじめてRに触れる初学者を対象に、Rを使っての統計解析の最初の一歩を踏み出すための説明をしてくれています。
Amazonで目次やレビューがみることできます。
入門者(R単体~Rstudio)
「はじめてのRStudio エラーメッセージなんかこわくない」は、Rstudio の入門書です。RstudioとはR言語をより使いやすくしたパッケージです。
Rを勉強するなら、Rstudioは必須になってきています。RstudioはR言語を効率的に使用するためのパッケージです。
Rstudioを中心に勉強することが、Rをマスターすることに繋がります。そのRstudioの入門書です。
実際にRstudioを使ってみて、R単体よりも非常に使い勝手がよく、これがないともう離れられないです。
Amazonで試し読みができます。
初心者(Rstudio)
「RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界−」はRstudioを使用するための入門書です。第2版もでました。
Rstudioの使い方を中心に説明し、前処理、分析、まとめ方まで一連のデータ分析の流れを説明してくれています。
特に参考になったのは、Rstudioの使い方と、tidyverseというパッケージを使って、ggplot2による美しいグラフ化方法です。
「これはEXCELにはできない!」「EXCELでやったら超めんどくさいけど、今度からこれでやろう」ということが、本書で書かれていて参考になりました。
私は本書でグラフ化に抵抗がなくなりました。ただ、入門書だけあって、あれやこれややりたくなる場合は物足りないです。そのときは「Rグラフィックスクックブック 第2版」本をおすすめします。
Rによるスクレイピングについても説明されていますが、私はスクレイピングをしないので微妙でした。しかし、他の章は全て参考になりました。
「Rをはじめよう生命科学のためのRStudio入門」は生命科学向けのRstudio入門書です。上記の本同様に、tidyverseを使って最近のモダンなデータ分析フローを教えてくれます。
t検定,ANOVA,ANCOVAなど各種検定の具体的手順とポイントがわかりやすく書かれています。発表用のグラフも簡単につくれて細かい所のアレンジもできるように書かれています。
生物系の論文では、このあたりの分析が常に書かれているので、参考になりそうです。
第1章 Rって何?
第2章 データの準備の仕方とRへの読み込み方
第3章 データを読み込んだらまず何をするか
第4章 データの可視化
第5章 基礎的な統計検定(T検定,χ^2分割表,簡単な線形回帰,一元配置分散分析)
第6章 複雑な検定(二元配置分散分析,共分散分析)
第7章 一般化線形モデル(GLM)(ポアソン回帰)
第8章 グラフィクス,再び
第9章 今後の指針:Rで幸せになりましょう!
Amazonで中身を試し読みできます。
初中級者
「RStudioではじめるRプログラミング入門」はRプログラミングの入門書です。オライリーの本です。その名の通りプログラミング色が強い本です。
統計を使わずにRを純粋にプログラミング言語として学ぶことがコンセプトとした本です。
統計学の難しい知識がなくても、プログラミングの経験がなくても、大丈夫です。トランプゲームやスロットマシンを作ることで、Rを楽しみながら学ぶことができます。
さらに、データサイエンスの基礎のデータ分析も学ぶことができます。
こちらもRstudioの環境を使用していますので、Rstudioを使って学んでいくことになります。
中級者
「RとPythonで学ぶ[実践的]データサイエンス&機械学習」はRのデータサイエンスと機械学習の本です。
本書はRを使用したデータ分析・統計解析や機械学習について知りたい方、データサイエンティストになりたい方におすすめです。
本書は「統計的なモデリングとは何か?」「モデルに基づく要因の分析と予測の違いとは?」「具体的なモデルの作り方」「結果を解釈する際の落とし穴の見分け方」など、ビジネスの現場感を重視した構成です。
Rの実務を意識した本でありながら、難しい数式を使用せずに説明しているのが好感が持てます。