SlideShare une entreprise Scribd logo
1  sur  28
Télécharger pour lire hors ligne
対応分析研究会
第5回 プロファイル空間の幾何学(2)
2021年4⽉17⽇
ver1.2 4/17
津⽥塾⼤学 数学・計算機科学研究所
藤本⼀男
kazuo.fujimoto2007@gmail.com
本⽇の構成
• 前回つくったチャートの「プロファイル空間の幾何学(2)」
• 第7章 最適化尺度法
• 第8章 ⾏分析と列分析の対称性
• 第9章 2次元表⽰
• (Rを使うために)
2021/4/17 対応分析研究会 第5回 2
第7章 最適化尺度
法
第6章 次元を縮減
する
第5章 Χ2距離をプ
ロットする
第4章 Χ2距離と慣
性
第1章 散布図と
マップ
第2章 プロファイ
ルとプロファイル
空間
第3章 質量と重⼼
2つの量変数の関係を⾒る
→ 散布図
カテゴリカル変数をどう扱うか
距離!
CAの基本概念:プロファイル
それが位置するプロファイル
空間。三⾓座標でみていく。
プロファイル:周辺度数→質量
頂点とプロファイル、
平均プロファイル(期待値プロ
ファイル)、重⼼
距離: Χ2距離
慣性: Χ2値/n(プロファイル値で
表現)
最⼤慣性:頂点に⼀致
最⼩慣性:原点(重⼼)に⼀致
Χ2距離をユークリッド距離
に変換し図⽰する。
分布の同等性(分布的に等価)
ここまで3次元。これからより
多数の次元を扱う。
低次元下位空間を同定する(回帰
との⽐較)
SVD:特異値分解
近似:表⽰の質
第10章 さらに3つ
の事例
DS5:科学研究者の評価
DS6:海底試料中海洋種
DS7:著者ごとの⽂字種
慣性の分解
⾮対称マップ/対称マップ
慣性の⼤きさによる表⽰
の特徴
第9章 2次元表⽰ 主軸のネスティング
プロファイルと頂点
⾮対称マップ/対称マップ
第8章 ⾏分析と列
分析の対称性
頂点位置とプロファイル
スケーリング係数
主座標と標準座標
正準相関:最⼤化
整数尺度(likert)
解釈の基準
プロファイル空間の幾何学(1)
プロファイル空間の幾何学(2)
2021/4/17 対応分析研究会 第5回 3
DS1
DS2
DS3
DS4
第7章 最適化尺度法
2021/4/17 対応分析研究会 第5回 4
構成
• 整数尺度という「デフォルト」
• 整数尺度をもとにした統計量の計算
• 平均、分散、…
2021/4/17 対応分析研究会 第5回 5
カテゴリ・セットの数量化
• データの確認:健康評価データ(Exhibit6.1)
• health.xls
• http://www.carme-n.org/?sec=data7
• 各健康カテゴリへの値 1〜5の割り当て:整数尺度
• 「最適化尺度法は、最適化のための特定の基準に基づいたカテ
ゴリ変数に数量的な尺度値を付与する⽅法を提供する」
2021/4/17 対応分析研究会 第5回 6
Exhibit6.1 健康評価データ
Exhibit6.1 ⾏プロファイル
2021/4/17 対応分析研究会 第5回 7
r-tips: 対⾓⾏列を左から/右からかける
• 表が⾏列として与えられている。M
• このMの⾏プロファイルを求めるには
• ⾏和(周辺度数)をもとめ、それをベクトルにする。r
• そのベクトル分の1を要素とする対⾓⾏列 Dr−1 をMに対して左からか
かける。
• Dr−1 %*% M (%*% は、Rでの⾏列の掛け算)
• このMの列にウェイトをかける場合は、5:1(5,4,3,2,1)を対⾓
にもった対⾓⾏列 DI を右からかける。
• M %*% DI
• Rmarkdownで記述したもの(付録)を⾒てください。
2021/4/17 対応分析研究会 第5回 8
以下のものはすべて⾏列計算でOK
• 1 整数尺度での平均、分散
• 1.1 整数尺度を⽤いた全体平均の計算
• 1.1.1 整数尺度での平均値の計算
• 1.2 整数尺度を⽤いた群平均(群内平均)
• 1.3 整数尺度を⽤いた分散の計算
• 付録Bでは、applyを使っている
2021/4/17 対応分析研究会 第5回 9
「CAで最適合する次元」による最適化尺度
• Exhibit6.1 にCAを⾏う
• .tbl6.1にデータが⼊っているとする。
• res.CA <- CA(.tbl6.1, graph=FALSE)
• plot(res.CA)
2021/4/17 対応分析研究会 第5回 10
RのCA関連パッケージ
• Greenacre先⽣たちの
• ca
• ca::ca
• ca::mjca
• Husson先⽣たちの
• FactoMineR
• FactoMineR::CA
• FactoMineR::MCA
2021/4/17 対応分析研究会 第5回 11
resultの座標の尺度を確認しておく
• 主座標(principal coord)か標準座標(standard coord)か
• res.CA <- FactoMineR::CA(.tbl)
• summary(res.CA)
• res.ca <- ca::ca(.tbl)
2021/4/17 対応分析研究会 第5回 12
Exhibit7.3は図が壊れてます
• 差し替え!
2021/4/17 対応分析研究会 第5回 13
尺度選択の議論
• 「リッカート尺度のアプリオリな適⽤」に対して、
• 最適化尺度が主張するもの
• Fisher1940による分散最⼤化という主張
• データが有している情報を「最⼤限」引き出す。
• 統計モデルの選択と似ている?
• 「正しいものはどれか」ではなくデータの性質、研究⽬的にとって
<最適>な選択をしているか、では。
2021/4/17 対応分析研究会 第5回 14
第8章 ⾏分析と列分析の対称性
2021/4/17 対応分析研究会 第5回 15
構成
• ここまで⾏分析としてやってきたことを列分析に対しても⾏え
る。
• 同じ、総慣性、次元、低次元近似、座標値、主軸と主慣性。
• ⾏分析と列分析を結ぶもの:
• スケーリング係数 → 主慣性の平⽅根
2021/4/17 対応分析研究会 第5回 16
Exhibit 8.5
健康区分と年齢層との間の
相関を最⼤にする尺度値に
よる散布図。
回答者の数に⽐例した⾯積
で値の各組合せに四⾓形が
表⽰されている。
相関は、第1主慣性の平⽅
根である0.3696に等しい
年齢群(AGE GROUP)の⽬盛、つけ忘れ
てます。値は標準座標。Exhibit8.4を参照
2021/4/17 対応分析研究会 第5回 17
平均2乗相関を最⼤化
• ここ、検算できてません。
• ただ、説明によれば、2つ以上の変数に対して簡単に⼀般化で
きる、ということ、参照が第20章なので、多重対応分析のとこ
ろででてくると思われます。
• あわせて、「等質性」をめぐる議論、よくわかってません。す
みません。
2021/4/17 対応分析研究会 第5回 18
主座標と標準座標、が導⼊されました
• 標準座標
• 頂点の座標位置
• プロファイル空間をつくるもの
• 主座標
• プロファイルの座標位置
• 参考
• 対称マップ
• ⾏も列も主座標
• ⾮対称マップ
• 空間をつくるほうが、標準座標
• そこにプロットされるほうが、主座標
2021/4/17 対応分析研究会 第5回 19
第9章 2次元表⽰
2021/4/17 対応分析研究会 第5回 20
構成
• データセット:smoke
• ⾏分析という視点:Exhibit9.1
• ⾏プロファイルと列頂点の関係の解釈:Exhibit9.2
• 主軸の⼊れ⼦関係
• 最適尺度法で考える:喫煙-⾮喫煙の⼆分法
• プロファイルと頂点の関係
2021/4/17 対応分析研究会 第5回 21
x4
x1
x2
x3
1
x
2
x
3
x
4
x
5
x
Exhibit9.1の
⾏プロファイル
1 2 3 4
1
2
3
4
5
heavy
none
light
medium
2021/4/17 対応分析研究会 第5回 22
訳⽂訂正 p68
現在
• 各頂点について、プロファイ
ル要素は、プロファイル−頂
点間距離に関して単調減少で
あって、
訂正後
• 各頂点ごとに、プロファイル
要素は、プロファイル頂点間
距離に対して単調逆⽐例して
おり、
2021/4/17 対応分析研究会 第5回 23
Exhibit9.2 ⾏主座標マップ(map=“rowprincipal”)
Exhibit9.4 列主座標マップ(map=“colprincipal”)
Exhibit9.5 対称マップ (map=“symmetric”)
⾮対称マップ、対称マップ、バイプロット
biplot は13章へ。
それを踏まえて、藤本2017は書き直したい。
2021/4/17 対応分析研究会 第5回 24
カイ⼆乗距離表⽰の吟味
• 誤記訂正 Exhibit9.6 「中間点間距離」→ 「ポイント間距離」
2021/4/17 対応分析研究会 第5回 25
CAのresultを表⽰するtool
• factoextra
• ggplotベースのグラフ表⽰
• plot.caのmapオプションにも対応
• 当初、マップエリアでの⽇本語表⽰に問題があったがshowtextを使っ
て解決。Tokyo.Rでの報告。
• explor
• shinyを使ったインターラクティブ・ツール。
• MCAに対してのほうが威⼒を感じます。
• スナップショット的なものを、コードとして吐き出すので、それを
Rmarkdownに貼り込める。
2021/4/17 対応分析研究会 第5回 26
参考⽂献
• 第7章
• ⻄⾥静彦,2007, 『データ解析への洞察―数量化の存在理由 』K.G.リブレット、
関⻄学院⼤学出版会、
• ⻄⾥静彦,2014, 「⾏動科学への数理の応⽤:探索的データ解析と測度の関係
の理解」⾏動計量学会論⽂ページ
• 藤本が、Tokyo.RのLTで報告したスライド
• 「その数量化、⼤丈夫ですか?」 https://www.slideshare.net/kazuofujimoto/ss-
89428948
• 第8章
• 第9章
• 藤本,2017,「対応分析のグラフを適切に解釈する条件−Standard coordinate,
Principal Coordinate を理解する−」『津⽥塾⼤学紀要』49,141-153,
http://id.nii.ac.jp/1234/00000110/
• 藤本,2015,『対応分析⼊⾨』オーム社:p73にパッケージの⽐較表
2021/4/17 対応分析研究会 第5回 27
CAに関係するRのpackage
• CA本体
• ca Michael Greenacre, Oleg Nenadic, Michael Friendly
• FactoMineR Francois Husson, Julie Josse, Sebastien Le, Jeremy Mazet
• GDATools Nicolas Robette
• CAのresultを解析するツール
• factoextra Alboukadel Kassambara, Fabian Mundt
• explor Julien Barnier
• カテゴリカルデータ解析
• vcd David Meyer Achim Zeileis ORCID iD, Kurt Hornik, Florian Gerber,
Michael Friendly
• vcdExtra Michael Friendly, Heather Turner, Achim Zeileis, Duncan Murdoch,
David Firth
• 次回は、第10章の三つのデータセットの解説と、これまでに使ったデータ
セットのレビューをこれらのパッケージを使って、総合的にやってみたい
と思っております。(提案!)
2021/4/17 対応分析研究会 第5回 28

Contenu connexe

Plus de Tsuda University Institute for Mathematics and Computer Science

Landscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational PerspectiveLandscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational Perspective
Tsuda University Institute for Mathematics and Computer Science
 

Plus de Tsuda University Institute for Mathematics and Computer Science (18)

ITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdfITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdf
 
日本社会学会95回大会報告v1.4.pdf
日本社会学会95回大会報告v1.4.pdf日本社会学会95回大会報告v1.4.pdf
日本社会学会95回大会報告v1.4.pdf
 
MAの困難についての報告PPT.pdf
MAの困難についての報告PPT.pdfMAの困難についての報告PPT.pdf
MAの困難についての報告PPT.pdf
 
Landscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational PerspectiveLandscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational Perspective
 
第7回20210710第12−13章
第7回20210710第12−13章第7回20210710第12−13章
第7回20210710第12−13章
 
第8回20210827第14、15章
第8回20210827第14、15章第8回20210827第14、15章
第8回20210827第14、15章
 
第9回20211009第16−17章
第9回20211009第16−17章第9回20211009第16−17章
第9回20211009第16−17章
 
第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a
 
C ai p3_jp_no2
C ai p3_jp_no2C ai p3_jp_no2
C ai p3_jp_no2
 
C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0
 
ggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使うggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使う
 
Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1
 
Jss20191006 ts13 gda_open
Jss20191006 ts13 gda_openJss20191006 ts13 gda_open
Jss20191006 ts13 gda_open
 
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcageWrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
 
vcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGatewayvcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGateway
 
その数量化、大丈夫ですか?
その数量化、大丈夫ですか?その数量化、大丈夫ですか?
その数量化、大丈夫ですか?
 
Use Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra packageUse Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra package
 
2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示
 

C ai p3_jp_no5v1.2