SlideShare a Scribd company logo
1 of 40
Download to read offline
幾何学的データ解析(GDA)の
中で多重対応分析(MCA)と分
散分析(ANOVA)の連携を⾒る
⽇本社会学会 第95回全国⼤会
2022年11⽉12⽇
「研究法・調査法」報告3 ver1.4
於)追⼿⾨⼤学
津⽥塾⼤学 数学・計算機科学研究所
藤本 ⼀男
kazuo.fujimoto2007@gmail.com
履歴
• v1.2 2022/11/12 ⽇本社会学会第95回全国⼤会で配布。
• v1.3 2022/11/14「謝辞」を追加
• v1.4 2022/11/21
• 「交互作⽤の分析:性別-年齢変数の投⼊」のggadd_interaction を
GDAtools v1.8のものに替えて実⾏。
• 「嗜好空間(変数空間)と軸の解釈」の変数空間の軸の⽅向と解釈を
LeRoux&Rouanet2010=2021に合わせた。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 2
報告の構成
• 幾何学的データ解析(GDA)とはなにか
• その中⼼にある多重対応分析(MCA)の仕組み
• CA/MCAは分散をどのように分解するか
• MCAによって(分散)分解されたresultをどう分析するか
• MCAから帰納的データ解析(IDA)へ
• 量的変数のカテゴリ化によるMCAとしての処理へ
• これを、MCAは、分散とどう分解するのか、という視点で整理
していきます。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 3
幾何学的データ解析(GDA)の由来
• Benécri が対応分析(CA)を⽤いた分析を「データ解析」(仏
語:Analyse des Données)と呼んだ。
• しかし、これは Benécri の思想を⼗分反映してないと1996年、
スタンフォード⼤学の数学者、Patrick Suppesが、分析の性格
を踏まえて、幾何学的データ解析となずけた。
MCA2010=2021:2
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 4
実験データと観察データ
• 実験計画では、実験者が制御できる実験因⼦とその結果である
従属変数は、明確に区別され、その因⼦の効果の分析(主効果、
交換間効果、効果内効果、交互作⽤)を分散分析によって調べ
ていく。
• 観察データでは、調査者が制御できる因⼦はない。
• 観察データの多重対応分析では、全体(主雲)を従属変数とみ
なして、構造化因⼦(全体空間の⽣成に寄与しない因⼦)の関
係も同じように調べることができる。
• MCA2010=2021:96
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 5
対応分析の事例
• 分析対象データ
• クロス表
• Clausen1998=2115,p3
• 10⾏-6列
• ⾏分析
• ⾏プロファイル(⾏和に
対する割合)から
• 列分析
• 列プロファイル(列和い
対する割合)から
• これをCAします
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 6
対称マップで表⽰
• 10の変数カテゴリ、6列の変数カテゴリの
データが、
• 次元縮減されて2次元で表現されている。
• CAによって⽣成される空間
• ⾏空間
• 列空間
• 別空間であるが、⽣成される座標軸が「同
じ」分散をもっているので、重ねて表⽰可
能。(藤本2017)
• また、⾏ポイントと列ポイントは、数理
的につながっている。
• 追加変数(サプリメンタリ変数)という仕
組み。
• Clausen 1998 = 2015、Greenacre 2017
= 2020、他
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 7
CAの多変量化:多重対応分析MCAへ
• 多変量化の仕組み
• 調査データ表
• ⾏:個体
• 列:変数回答カテゴリ
• CDC(完全排他コーディング),crisp coding
• このルールで表記された「個体x変数カテゴリ」の表にCAを⾏
う。
• やはり、⼆つの空間が⽣成される
• 個体空間
• 変数空間
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 8
ここまでで起こっていること
• 元データ
• 各個体は、列である変数カテゴリの数の次元数のポイントとして空間
に配置することができる。
• 逆に、各変数カテゴリは、個体数の次元数を持った空間にポイントと
して配置することができる。
• これをCAして次元縮減される。
• 何次元まで評価すればよいか(全体の分散が各次元に分解された)
• スクリープロットで確認
• 多次元空間を次元縮減すると、⼀つの座標が体現する分散が⼩さい値になるので、
補正が考案されている。(Benzecriの補正、Greenacreの補正)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 9
MCA事例:嗜好データ(TasteExample*)
⾏:回答者
列:回答設問
*このデータは、
LeRoux&Rouanet2010=2021
で使われているデータを⽇本語
化したもの。
https://helios2.mi.parisdes
cartes.fr/~lerb/Logiciels/D
ata/Taste_Example.xls
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 10
指標⾏列化したもの:データとしては等価
46カテゴリ
変数TVの回答カテゴリ
変数映画の回答カテゴリ
変数芸術の
回答カテゴリ
1215⾏
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 11
MCAによる空間⽣成
1215 x 4 ⾏列
4変数= カテゴリ数29(8+8+7+6)
29−1次元までとられる
変数空間
個体空間
データ表がもっていた分散
次元縮減で⽣成された空間の座標軸に分解
その座標軸をもとに
⼆つの空間が⽣成
される。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 12
「変数」空間の⽣成
Dim28まである
全変数カテゴリ分(29⾏)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 13
「個体」空間の⽣成
全個体分(1215⾏)
Dim28まである
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 14
⽣成された空間の何次元まで分析対象を
するか
• 固有値と修正寄与率
• 多重対応分析の場合、変数
カテゴリが多いため、⼀軸
が体現する分散が⾮常に⼩
さくなってしまう。
• それに対して、評価のため
の補正が考案されている。
• ベンゼクリの補正
• グリーネーカーの補正
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 15
分散の分解:その1
• 分析対象のデータは、MCAによって、次元縮減され、それは、
⼤きい順に、第1軸、第2軸、…、に分解される。
• これが、最初の分解。
• そして、多くの場合、1、2軸という平⾯、もしくは、3軸を
加えた、⽴体でデータの分散の分解を考えていくことになる。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 19
MCA模試図的に…
個体I 変数1 変数2 ….. 変数Q
1
2
3
:
:
I
個体I Dim1 Dim2 ….. Dimn
1
2
3
:
:
I
個体I
cat1-
1
cat1-
cat1-
k1
cat2-
1
cat2-
cat2-
k2
….
catQ
-1
catQ
-2
catQ
-kq
1
2
3
:
:
I
変数 Dim1 Dim2 ….. Dimn
cat1-1
cat1-2
cat1-3
:
:
CatQ-q
固有値 寄与率 累積寄与率
Dim1
Dim2
:
Dimn
次元縮減
「個体」雲
「変数」雲
座標値
座標値
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 20
個体I Dim1 Dim2 ….. Dimn
1
2
3
:
:
I
変数 Dim1 Dim2 ….. Dimn
cat1-1
cat1-2
cat1-3
:
:
CatQ-q
固有値 寄与率 累積寄与率
Dim1
Dim2
:
Dimn
次元縮減
個体雲
変数雲
変数雲:
各セルごとに、座標値、度数をもっているので、
そこから、分散が計算でき各軸への寄与率を計算で
きる。
そこから、Dim1、Dim2…の解釈を⾏う。
この軸の解釈=名称が、あらたな「変数名」
何軸まで分析対象にするかを
累積寄与率を睨んで決める。
その時、修正寄与率、累積修
正寄与率を⾒ること。
修正寄与率 累積修正寄与率
Benzécriの修正寄与率
各軸を解釈(軸に名前をつける)する
ために、軸に対する変数カテゴリの寄与
を確認する。
それをもとに軸に名前をつける。
個体雲の解釈は、軸との関係でみていく。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 21
分析のステップ(1)軸の解釈(Dim1)
• 変数空間の座標軸
の解釈を変数雲を
もとに⾏う
• 各軸に対して寄与
率の⼤きなものを
並べて判定する。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 22
この⼿順から軸の名前をつける
• この事例では以下の通り。(MCA2010=2021:72-74)から短縮
表現。
• Dim1
• 事実&伝統的 vs 架空&現代的
• Dim2
• ⼤衆的 vs 洗練
• Dim3
• 硬い/活発 vs 軟らかい/穏やか
• この表記は、マップに記⼊するのがよい。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 23
嗜好空間(変数空間)と軸の解釈
事実&伝統的 架空&現代的
⼤衆的
洗練
洗練 ⼤衆的
硬い/活発
軟らかい/穏やか
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 24
個体雲を「性別Gender」で分割:集中楕
円
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 25
個体をhexBinで密度表⽰すると
前ページの集中楕円は、
ポイント雲の平均を中⼼
として、⼀様分布を想定
した時の95%範囲を表⽰
している。
Cramer1946=1973
LeRoux&Rouanet2010=2021
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 26
問題は、この部分雲の関係をどう分析す
るか
• ここで、雲の分散の関係をもちいて、関係をみていくことにな
る。
• 個体の雲:全体
• 部分雲は、
• 性別:男性雲
• 性別:⼥性雲
• この部分雲は、平均(男性平均点、⼥性平均点)を有しており、
その点も分散をもつ。そして、その平均から各個体点までの距
離にもとづいた分散をもっている。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 27
この関係は、平⽅和の分解として計算さ
れる
• 全体分散(V_total)= 群間分散(V_between)+
群内分散(V_within)
そして、この⼤きさの関係は、η2として以下の計算で得られる
η2 =
群間分散(!_#$%&$$')
全分散(!_()%*+)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 28
分散の分解表
性別ごとの軸別分散
群内分散
群間分散
軸ごとの分散:固有値
η2
dim3のη2値
が⼀番⼤きい
個体雲の性別部分雲を集中楕円で
表したマップを参照。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 29
個体雲:⽬的変数
説明変数:性別(Gender)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 30
個体雲:⽬的変数
説明変数:年齢(Age)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 31
交互作⽤の分析:性別-年齢変数の投⼊
性別-年齢の
合成変数
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 32
交互作⽤plot (Dim1)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 33
まとめ
• MCAの結果、⽣成される空間
• 元データにあった変数から主成分分析と同じ発想で、⼀番分散を体現する軸
(主軸)を取り出している。このステップは「数量化」である。
• こうして⼆つの空間が⽣成されるが、
• 変数雲からは、変数カテゴリ間の相互関係を分析することが可能
• また、寄与率の⼤きなカテゴリに注⽬して、軸の解釈を⾏う。この軸の命名
が、新たな「変数名」である。
• また、こうした空間の解釈をもとに、個体での分散の分解をもとに、
⽣成された空間(嗜好空間)の構造を分析してける。
• (本発表では扱わないが)この過程を踏まえて、⾒出された差異が
優位であるかどうかの検定は、リサンプリング(ブートストラッピ
ング、並べ替え検定)を⽤いて⾏われる。(IDA:帰納的データ解
析)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 34
参考:展開
• GDAの名称、「幾何学的データ解析」の幾何学的は、グラフ表
⽰に対応している。これは、TukeyのEDA(探索的データ解
析)の流れに位置付けられる。
• カテゴリデータに対して「根拠のある数量化処理」を⾏う vs
(アプリオリな数量化)整数尺度(リッカート尺度)
• 数量データも、適切な区分に収めることでカテゴリ化すれば、
MCAの分析対象になる。
• この⼿法を使えば、重回帰分析での(2つを超える)説明変数間の関
係も図⽰したうえで検討することが可能になる。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 35
参考:Analysis of comparsion
• Le Roux, Brigitte, Henry Rouanet.,2004
• 以下の項⽬でまとめられている。
• 第6章STRUCTURED(構造化データ解析))。
• 入れ子構造(Nesting Structure 6.2.3)
• 交差構造(Crossing Structure 6.2.4)
• 分散の二重分解(Double Breakdown of variance 6.2.5)
• 加算雲(Additive Cloud 6.3.1)
• 交互作用雲(Interaction Cloud 6.3.2)
• 構造効果(Structural Effect 6.3.3)
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 36
参考:⼆つのMCAのヴァリアント
• SpecificMCA((変数カテゴリ)限定多重対応分析)
• 度数が極端に少ない(空間⽣成に影響がある)カテゴリをジャンクカ
テゴリとして空間⽣成に寄与しない消極的カテゴリとして扱いMCAを
⾏う。
• 低度数カテゴリの影響が除去される → 対象を精緻に分析可能になる
• CSA(ClassSpecific Analysis)集団限定多重対応分析
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 37
参考:MCAのバリアント(2)
• CSA(集団限定多重対応分析)
• LeRoux&Rouanet2004では、これもSpeMCAの個体版の位置付け。
• Greenacre2017=2020では、SubsetMCAとして解説されている。
• しかし、 LeRoux&Rouanet2010=2021では、ClassSpecificAnalysis
と、分析⼿法として整理されている。
• 年齢カテゴリによって形成されるサブクラウドに対するMCAを
おこなって、それによって得られる主軸、分散を、個体全体を
対象にして計算された主軸、分散と⽐較することで、分析を進
める
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 38
参考⽂献 CA/MCAの基本⽂献
• Clausen. Sten Erik,1998=2015,”Applied Correspondence
Analysis”,SAGE,(訳:藤本⼀男, 2015,『対応分析⼊⾨』オーム社)
• Le Roux, Brigitte, Henry Rouanet.2010,Multiple correspondence
analysis.Quantitative applications in the social sciences 163. Thousand
Oaks, Calif:Sage Publications(2021,⼤隅昇,⼩野裕亮,鳰真紀⼦.多重対応
分析.東京:オーム社)
• Greenacre, Michael,2017?,”Correspondence Analysis in Practice”,訳:
藤本⼀男,2020,『対応分析の理論と実践:基礎・応⽤・展開』,東京:オーム
社
• Lebart, L.,Morneau, A., & Warwick, KX. M. (1984).
MultivariateDescriptiveStatistical Analysis: Correspondence Analysis
andRelated Techniques forLarge Matrices, New York: Wiley * (⼤隅昇,L.
ルバール,A.モリノウ,K.M.ワーウィック,⾺場康維(1994.「記述的多变量解
析」(⽇科技運出版社))
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 40
GDAに関する重要⽂献
• Le Roux,Brigitte, Henry Rouanet,1998,Interpreting Axes in
MultipleCorrespondenceAnalysis: Method of the Contributions of Points and
Deviations,Blasius, Jörg, Michael J Greenacre.ed, 1998,Visualization of
Categorical Data,CRC press
• Henry Rouanet ed,2000,”New ways in statistical methodology: from
significance tests to Bayesian inference”, European university studies. Series
VI, Psychology : Europäische Hochschulschriften. Reihe VI, Psychologie,
• Le Roux, Brigitte, Henry Rouanet.,2004,Geometric Data Analysis:
FromCorrespondence Analysis to Structured DataAnalysis. Dordrecht:
KluwerAcademic Publishers
• Henry Rouanet.,2006, The Geometric Analysis of Structured Individuals x
VariablesTables, “Greenacre, Michael J., Jörg
Blasius,ed,2006,Multiplecorrespondence analysis and related methods”、所収、
pp138-159
• Le Roux,Brigitte et al.,2019,”Combinatorial inference in geometric data
analysis”,Chapman & Hall/CRC computer science and data analysis series
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 41
参考⽂献 藤本執筆分
• 2015, `On publishing the Japanese translation of “Applied correspondence
analysis” and its comment part` ,CARME2015, Naples
• 2017,「対応分析のグラフを適切に解釈する条件−StandardCoordinate,Principal
Coordinateを理解する」『津⽥塾⼤学紀要』第49号、pp141-153
• 2018,「プログラミング⾔語Rにおける2つのmosaicplotと⽇本語、多⾔語表⽰」
『津⽥塾⼤学紀要』第50号、pp129-146
• 2019,「『Supplymentary』変数から多重対応分析(MCA)を考える―幾何学
的データ解析(GDA)と多重対応分析(MCA)―」『津⽥塾⼤学紀要』
第51号、pp156-167
• 2019, “Landscape of CA in Japan and educational perspective”, CARME 2019, Capetown
• 2020,「対応分析は<関係>をどのように表現するのか―CA/MCAの基本特性と
分析フレームワークとしてのGDA―」『津⽥塾⼤学紀要』第52号,pp169-184
• 2022,「⽇本における「対応分析」受容の現状を踏まえて、EDA(探索的データ解
析)の中に対応分析を位置付け、新たなデータ解析のアプローチを実現する」
『津⽥塾⼤学紀要』第54号、pp172-193付録
• (⼊稿済)2023,「『幾何学的データ解析』は分散をどのように分解するのか−
GDAtoolsを⽤いて原理的な確認を⾏う−」『津⽥塾⼤学紀要』第55号
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 42
謝辞
• 本研究は、対応分析研究会(東京芸術⼤学、磯直樹先⽣主宰)
での発表をもとに、いただいた質問、討議をベースに構成して
います。
• また、本研究はJSPS科研費(20K02162)の助成を受けていま
す。。
• 記して感謝いたします。
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 43
2022/11/12 ⽇本社会学会第95回全国⼤会 報告 44

More Related Content

More from Tsuda University Institute for Mathematics and Computer Science

More from Tsuda University Institute for Mathematics and Computer Science (15)

第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a
 
藤本一男発表資料日本社会学会94v1.0
藤本一男発表資料日本社会学会94v1.0藤本一男発表資料日本社会学会94v1.0
藤本一男発表資料日本社会学会94v1.0
 
C ai p3_jp_no1v1.0
C ai p3_jp_no1v1.0C ai p3_jp_no1v1.0
C ai p3_jp_no1v1.0
 
C ai p3_jp_no2
C ai p3_jp_no2C ai p3_jp_no2
C ai p3_jp_no2
 
C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0
 
C ai p3_jp_no4v1.20
C ai p3_jp_no4v1.20C ai p3_jp_no4v1.20
C ai p3_jp_no4v1.20
 
C ai p3_jp_no5v1.2
C ai p3_jp_no5v1.2C ai p3_jp_no5v1.2
C ai p3_jp_no5v1.2
 
ggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使うggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使う
 
Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1
 
Jss20191006 ts13 gda_open
Jss20191006 ts13 gda_openJss20191006 ts13 gda_open
Jss20191006 ts13 gda_open
 
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcageWrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
 
vcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGatewayvcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGateway
 
その数量化、大丈夫ですか?
その数量化、大丈夫ですか?その数量化、大丈夫ですか?
その数量化、大丈夫ですか?
 
Use Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra packageUse Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra package
 
2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示
 

日本社会学会95回大会報告v1.4.pdf