Contenu connexe
Similaire à 第1回Rを使って統計分析を勉強する会
Similaire à 第1回Rを使って統計分析を勉強する会 (20)
第1回Rを使って統計分析を勉強する会
- 5. R にしろ Excel にしろ
道具です。 R が使えるからと言って、統計分
析ができるというわけでは、残念ながらあり
ません。
というわけで、この勉強会では、 R の使い方
に加えて、統計分析の考え方についてもちょ
くちょく触れていきたいと思います。
- 10. こんな流れで進めます
「データ可視化の 7 ステップ」
( 出典『ビジュアライジング・データ』 )
1.Acquire : データをゲットします
2.Parse : 整形します
3.Filter : 必要なサブセットを抜き出します
4.Mine : 分析します
5.Represent : 分析結果を出力します
6.Refine : 省略
7.Interaction : 省略
- 15. 一体何を読み込んだのか?
R には大きく 5 つのデータ構造があります
1.vector :基本。 1 次元配列。
2.matrix :行列。 2 次元配列。
3.array :配列。 n 次元配列。
4.data frame :重要。表。さっき読み込んだ
5.list :柔軟で便利。
- 17. matrix, array
matrix はあまり使いません
array はもっと使いません(経験上)
> m1 <- matrix(v1, nrow=2)
> m1[1, 2] # 行 , 列の順で指定
> m1[, 2] # 省略すると全指定
> a1 <- array(v1, dim=c(2, 1, 2)
> a1
> a1[1, 1, 1]
- 19. list
柔軟なので便利。各要素の要素数が異なって
いても大丈夫( data fame はダメ)
私は色々な分析結果を 1 オブジェクトにまと
めるときに使ったりします
# data frmae 同様列名を付けられます
> li <- list(elem1=c(1, 2), elem2=c("a", "b", "c"))
> li
> li[[1]] # 要素へのアクセスには癖があります
> li$elem1 # 要素名でのアクセスは同じ
- 22. 文字列を因子に
文字列 "A" と選択肢 "A, B, AB, O" の "A" と
選択肢 "A, B, C" の "A" を正しく扱おう、と
いう話です。
> sample <- c("A", "B")
> blood <- factor(sample,
levels=C("A", "B", "AB", "O"))
> choice <- factor(sample,
levels=c("A", "B", "C"))
# == はクラスを意識しないので、 identical で比較
# Java の == と equlas のようなものです
> identical(sample[1], blood[1])
> identical(sample[1], choice[1])
> identical(blood[1], choice[1])
- 23. その他の型 (1/2)
代表的な Parse 先
● numeric: 数値 (1, -2, 0.1)
● character: 文字列 ("Hello World")
●
logical: 論理値 (TRUE, FALSE)
> c(1, -2, 0.1)
> c("Andy", "Bob", "Chris")
> c(TRUE, FALSE, TRUE)
- 24. その他の型 (2/2)
代表的な Parse 先
● factor: 因子
● Date: 日付
●
NA: 欠損値
> as.factor(c("A", "B"), levels=c("A", "B", "AB",
"O"))
> as.Date(c("2014/4/24", "2014/4/25"))
> c(1, 5, NA, 6)
- 27. 名義尺度
カテゴリ。背番号とか。 R では factor に相
当。
● 演算する意味ない
例)アンケートだとこんな設問
設問 1 あなたの役割を教えて下さい。
1. 開発
2. 営業
3. スタッフ
4. その他
- 28. 順序尺度
よくみる 5 段階評価とか。Rでは order=TRUE
オプション付の factor に相当。
● 意味があるのは順序だけ。足し引き意味ない
例)アンケートだとこんな設問
設問 2 この勉強会には満足していますか?
1. 満足している
2. やや満足している
3. ふつう
4. やや不満である
5. 不満である
- 32. Enterprise での利用
Google は R でプロトタイピングして C で実装
Oracle のデータも R で分析できる(らしい)
● Companies Using R | Revolution Analytics
●
Oracle R Enterprise