Contenu connexe
Similaire à 多変量解析の授業(駒場キャンパス)の演習で話すために作った資料 (16)
Plus de Toshiyuki Shimono (20)
多変量解析の授業(駒場キャンパス)の演習で話すために作った資料
- 4. 作業環境(ソフト,ハード,サービス)
• Windows と Cygwin
• Perl (特にデバッグモード) と SQLite3
• EmEditor (多目的エディタ)
▶ 数ギガバイトでも余裕
▶ CSVも見やすい(区切り文字は自由)
▶ 指定した文字列を10通りのマーカーで着色できて便利
• Amazon AWS
▶ メモリ32GBのEC2インスタンスを 1 ドル弱/時間 で利用できる
• R言語とScilabでグラフの描画
• 同じ大きさのディスプレイ2枚を横に並べる
4
- 10. 集計対象のツイッター発言データ :
1. 収集期間 ・・・・・・・・・・・・・・・・・・・・・・・・・・ 2013年12月10日から32日間
2. 収集した発言の数 ・・・・・・・・・・・・・・・・・・ ・・ ・・・・・・・・・・・・・・・・ 約320万件
3. 含まれていたアカウント数・・・・・・・・・・・・・・・・ ・・・ 約130万アカウント
4. ツイート発言で収集した範囲 ・・・・・・・・・・・下記の単語を含む発言
▼ ヒットしたツイート発言の多いアカウント 上位9個
“おせち イオン ジャスコ ヨーカドー 西友
ルミネ パルコ ラゾーナ ららぽーと
伊勢丹 三越 高島屋 丸井 初売り 初商 福袋
東急 東急本店 東横店 フードショー
ヒカリエ シンクス ShinQs
百貨店 デパート ショッピングセンター
クリアランス バーゲンセール バレンタイン ホワイトデー”
10
- 17. 参照したデータ :
「日本プロ野球記録大百科2004」
1954年-61年, 69年-89年, 94年, 96年の
31カ年は、プロ野球のセントラルリーグで
6球団が年間に130試合行っている。
これらの年の6球団の、以下の変数に着目した。
1. 年間順位
2. 年間の総得点(各戦いの自チームの得点の総和)
3. 年間の総失点(各戦いで対戦相手の得点の総和)
[観点]
◎ 優勝する球団は得点は大きく失点は小さいはず
◎ そういう関係は “数量” の観点でどう理解できるか?
- 29. 29
対応分析とは
• 「対応分析(correspondence analysis)は、フランスのベンゼクリ
(Benzécri)によって 1960 年代に提唱され、1970 年代から普及し始
めたカテゴリカルデータの解析方法で、コレスポンデンス分析とも
呼ばれている。類似の方法としては、1950 年代に林知己夫氏に
よって提案された数量化Ⅲ類、1980 年代に西里静彦氏によって
提案された双対尺度法(dual scaling)などがある。それぞれの方法
が提案された背景は異なるが、基本的なアプローチおよびアルゴ
リズムの中核は同じである。」
(金明哲, フリーソフトによるデータ解析・マイニング 第26回)
• データ数1万程度未満では安定では無いようだが、
今回はさらに大量のデータがある(オペレーション・リ
サーチ2004年3月号「コレスポンデンス分析における布
置の精度」 )。
Notes de l'éditeur
- 30万人のデータを抽出したもの
(1) 切れ方
(2) 平行四辺形の構造
R言語で不透明度のアルファを最小の0.01にして
点の色を紫、黄、赤、黄 と変えながら、点の数を段階的に減らしながらプロット。
- フォローして良い数が約2000の壁があるのだが(それ以上、フォローを増やすにはねフォロワーを増やさないといけない)それに気付くには、数千は必要だし、明確化するには、数万が必要になる。
しかし、数十万以上あっても、ビジュアル化の高度な習練が必要。
- メモ重要(忘れるので)
メモ無しでも”感覚”が身につく
色づけなどのアート的センスは重要となる。