Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
FactoInvestigate R Package
1. Analyse en Composantes Principales
Jeu de données decathlon
Ce jeu de données contient 41 individus et 13 variables, 2 variables quantitatives sont illustratives, 1 variable
qualitative est illustrative.
1. Observation d’individus extrêmes
L’analyse des graphes ne révèle aucun individu singulier.
2. Distribution de l’inertie
L’inertie des axes factoriels indique d’une part si les variables sont structurées et suggère d’autre part le
nombre judicieux de composantes principales à étudier.
Les 2 premiers axes de l’ ACP expriment 50.09% de l’inertie totale du jeu de données ; cela signifie que
50.09% de la variabilité totale du nuage des individus (ou des variables) est représentée dans ce plan. C’est
un pourcentage assez important, et le premier plan représente donc convenablement la variabilité contenue
dans une grande part du jeu de données actif. Cette valeur est supérieure à la valeur référence de 37.53%, la
variabilité expliquée par ce plan est donc significative (cette intertie de référence est le quantile 0.95 de la
distribution des pourcentages d’inertie obtenus en simulant 1682 jeux de données aléatoires de dimensions
comparables sur la base d’une distribution normale).
Du fait de ces observations, il serait tout de même probablement préférable de considérer également dans
l’analyse les dimensions supérieures ou égales à la troisième.
1 2 3 4 5 6 7 8 9 10
051015202530
Figure 2 - Decomposition of the total inertia on the components of the ACP
Une estimation du nombre pertinent d’axes à interpréter suggère de restreindre l’analyse à la description des
3 premiers axes. Ces composantes révèlent un taux d’inertie supérieur à celle du quantile 0.95 de distributions
1
2. aléatoires (64.14% contre 51.38%). Cette observation suggère que seuls ces axes sont porteurs d’une véritable
information. En conséquence, la description de l’analyse sera restreinte à ces seuls axes.
3. Description du plan 1:2
−6 −4 −2 0 2 4 6 8
−4−2024
Dim 1 (32.72%)
Dim2(17.37%)
YURKOV
WARNERS
MARTINEAU
NOOL
BOURGUIGNON
Sebrle
Clay
Karpov
Macey
Warners
Nool
Averyanov
Drews
Parkhomenko
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
Figure 3.1 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution
à la construction du plan.
La probabilité critique du test de Wilks indique la variable dont les modalités sépare au mieux les individus
sur le plan (i.e. qui explique au mieux les distances entre individus).
Competition
0.366311
Il n’y a qu’une unique variable qualitative possible pour illustrer les distances entre individus : Competition.
2
3. −6 −4 −2 0 2 4 6 8
−4−2024
Dim 1 (32.72%)
Dim2(17.37%)
Parkhomenko
Averyanov
WARNERS
Clay
YURKOV
Lorenzo
Sebrle
Nool
Korkizoglou
Karlivans
MARTINEAU
Casarsa
Uldal
NOOL Warners
BOURGUIGNON
Drews
Macey
Karpov
Decastar
OlympicG
Figure 3.2 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution
à la construction du plan. Les individus sont colorés selon leur appartenance aux modalités de la variable
Competition.
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.0−0.50.00.51.0
Dim 1 (32.72%)
Dim2(17.37%)
100m
Long.jump
Shot.put
400m
110m.hurdle
Discus
Points
Figure 3.3 - Graphe des variables (ACP) Les variables en noir sont les variables actives, celles en bleu
sont les variables quantitatives supplémentaires (illustratives). Les variables libellées sont celles les mieux
représentées sur le plan.
3
4. −0.6 −0.4 −0.2 0.0 0.2
−0.3−0.10.10.20.3
Dim 1 (32.72%)
Dim2(17.37%)
Decastar
OlympicG
Figure 3.4 - Graphe des modalités (ACP) Les facteurs libellés sont ceux les mieux représentés sur le
plan.
La dimension 1 oppose des individus tels que Karpov, Sebrle, Clay et Macey (à droite du graphe, caractérisés
par une coordonnée fortement positive sur l’axe) à des individus comme BOURGUIGNON, Uldal, Lorenzo,
NOOL et Karlivans (à gauche du graphe, caractérisés par une coordonnée fortement négative sur l’axe).
Le groupe auquel les individus Karpov, Sebrle, Clay et Macey appartiennent (caractérisés par une coordonnée
positive sur l’axe) partage :
• de fortes valeurs pour les variables Points, High.jump, Discus, Shot.put et Long.jump (de la plus extrême
à la moins extrême).
• de faibles valeurs pour les variables 400m, 110m.hurdle, Rank et 100m (de la moins extrême à la plus
extrême).
Le groupe auquel les individus BOURGUIGNON, Uldal, Lorenzo, NOOL et Karlivans appartiennent (carac-
térisés par une coordonnées négative sur l’axe) partage :
• de fortes valeurs pour les variables 110m.hurdle, 100m et Rank (de la plus extrême à la moins extrême).
• de faibles valeurs pour les variables Discus, High.jump, Points et Shot.put (de la moins extrême à la
plus extrême).
Notons que la variable Points est extrêmement corrélée à cette dimension (corrélation de 0.91). Cette variable
pourrait donc résumer à elle seule la dimension 1.
La dimension 2 oppose des individus tels que Casarsa, YURKOV et Parkhomenko (en haut du graphe,
caractérisés par une coordonnées fortement positive sur l’axe) à des individus comme Warners, Drews et
WARNERS (en bas du graphe, caractérisés par une coordonnées fortement négative sur l’axe).
Le groupe auquel les individus Casarsa, YURKOV et Parkhomenko appartiennent (caractérisés par une
coordonnée positive sur l’axe) partage :
• de fortes valeurs pour la variable 400m.
• de faibles valeurs pour la variable Long.jump.
4
5. Le groupe auquel les individus Warners, Drews et WARNERS appartiennent (caractérisés par une coordonnées
négative sur l’axe) partage :
• de fortes valeurs pour la variable Pole.vault.
• de faibles valeurs pour la variable 110m.hurdle.
4. Description de la dimension 3
−4 −2 0 2 4
−2−1012
Dim 3 (14.05%)
Dim4(10.57%)
KARPOV
Parkhomenko
Terek
Clay
McMULLEN
Lorenzo
CLAY
Sebrle Nool
Korkizoglou
BERNARD
Bernard
Karlivans
ZSIVOCZKY
Barras
Zsivoczky
Smith
Macey
Karpov
Figure 4.1 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution
à la construction du plan.
La probabilité critique du test de Wilks indique la variable dont les modalités sépare au mieux les individus
sur le plan (i.e. qui explique au mieux les distances entre individus).
Competition
0.496903
Il n’y a qu’une unique variable qualitative possible pour illustrer les distances entre individus : Competition.
5
6. −4 −2 0 2 4
−2−1012
Dim 3 (14.05%)
Dim4(10.57%)
Nool
KARPOV
Karpov
Macey
Smith
BERNARD
Zsivoczky
McMULLEN
Terek
Bernard
Korkizoglou
Lorenzo
Barras
Clay
CLAY
Parkhomenko
Karlivans
Sebrle
ZSIVOCZKY
Decastar
OlympicG
Figure 4.2 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution
à la construction du plan. Les individus sont colorés selon leur appartenance aux modalités de la variable
Competition.
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.0−0.50.00.51.0
Dim 3 (14.05%)
Dim4(10.57%)
High.jump
110m.hurdle
Pole.vault
Javeline
1500m
Figure 4.3 - Graphe des variables (ACP) Les variables en noir sont les variables actives, celles en bleu
sont les variables quantitatives supplémentaires (illustratives). Les variables libellées sont celles les mieux
représentées sur le plan.
6
7. −0.1 0.0 0.1 0.2 0.3
−0.20−0.100.000.10
Dim 3 (14.05%)
Dim4(10.57%)
Decastar
OlympicG
Figure 4.4 - Graphe des modalités (ACP) Les facteurs libellés sont ceux les mieux représentés sur le
plan.
La dimension 3 oppose des individus tels que KARPOV, Korkizoglou, Terek et CLAY (à droite du graphe,
caractérisés par une coordonnée fortement positive sur l’axe) à des individus comme ZSIVOCZKY, Barras,
Zsivoczky, McMULLEN, Macey, Bernard et Smith (à gauche du graphe, caractérisés par une coordonnée
fortement négative sur l’axe).
Le groupe auquel les individus KARPOV, Korkizoglou, Terek et CLAY appartiennent (caractérisés par une
coordonnée positive sur l’axe) partage :
• de fortes valeurs pour la variable 1500m.
• de faibles valeurs pour la variable Javeline.
Le groupe auquel les individus ZSIVOCZKY, Barras, Zsivoczky, McMULLEN, Macey, Bernard et Smith
appartiennent (caractérisés par une coordonnées négative sur l’axe) partage :
• de faibles valeurs pour les variables 1500m et Pole.vault (de la moins extrême à la plus extrême).
7
8. 5. Classification
−6 −4 −2 0 2 4 6 8
−4−2024
Dim 1 (32.72%)
Dim2(17.37%)
BOURGUIGNON
Casarsa
Uldal
Lorenzo
NOOL
MARTINEAU
Karlivans
Parkhomenko
Korkizoglou
YURKOV
Drews
Nool Averyanov
WARNERS Warners
Macey
Clay
Sebrle
Karpov
cluster 1
cluster 2
cluster 3
cluster 4
cluster 1
cluster 2
cluster 3
cluster 4
Figure 5 - Classification Ascendante Hierachique des individus. La classification réalisée sur les
individus fait apparaître 4 clusters.
Le cluster 1 est composé d’individus tels que YURKOV, MARTINEAU, NOOL, BOURGUIGNON,
Parkhomenko, Lorenzo, Karlivans, Uldal et Casarsa. Ce groupe est caractérisé par :
• de fortes valeurs pour les variables 100m, 110m.hurdle, 400m et Rank (de la plus extrême à la moins
extrême).
• de faibles valeurs pour les variables Shot.put, Long.jump et Points (de la moins extrême à la plus
extrême).
Le cluster 2 est composé d’individus tels que WARNERS, Warners, Nool, Averyanov, Drews et Korkizoglou.
Ce groupe est caractérisé par :
• de fortes valeurs pour les variables Pole.vault et 1500m (de la plus extrême à la moins extrême).
• de faibles valeurs pour les variables 100m et Javeline (de la moins extrême à la plus extrême).
Le cluster 3 est composé d’individus tels que Macey. Ce groupe est caractérisé par :
• de faibles valeurs pour les variables 1500m et Pole.vault (de la moins extrême à la plus extrême).
Le cluster 4 est composé d’individus tels que Sebrle, Clay et Karpov. Ce groupe est caractérisé par :
• de fortes valeurs pour les variables Points, Long.jump, Discus, Shot.put, Javeline et High.jump (de la
plus extrême à la moins extrême).
• de faibles valeurs pour les variables 110m.hurdle, Rank, 400m et 100m (de la moins extrême à la plus
extrême).
Annexes
dimdesc(res, axes = 1:3)
8