un projet Data Mining
ce projet prend en concidération les analyses des données de deux points de vue
un point de vue statistique et analyse descriptive et un point de vue fouille des données.
le traitement est fait avec R
2. Plan
Introduction
Exploration du domaine d’application
Prétraitement des données
Étude statistique
Data Mining
Partie aide a la décision
3. Introduction
Description des données
La base de données intitulé table Ciqual, un
fichier Excel comporte 2642 observations et
50 attributs.
La table Ciqual comporte les compositions
nutritionnelles des aliments
5. Exploration du domaine
d’application
L'objectif principal d'une recherche
qualitative est de fournir une description
complète et détaillée du sujet de
recherche.
Une recherche quantitative c’est
demander l’avis de l’expert
6. Prétraitement des données
prétraitement sur la structure des données
Nomination des attributs
Ancienne Libellé Nouvelle libellé
ORIGGPCD Code famille d’aliments
ORIGGPFR Libelle Famille d’aliments
ORIGFDCD Code de l’aliment
AG 4:0, butyrique (g/100g) butyrique (g/100g)
AG 6:0, caproïque (g/100g) caproïque (g/100g)
AG 8:0, caprylique (g/100g) caprylique (g/100g)
7. Vu la recherche et l’exploration du
domaine d’application, j’ai gardé
seulement les vitamines et les minéraux
indispensables ainsi la valeur énergétique
et la valeur de cholestérol, sucres,
gluicides,lipides, protéines
Le prétraitement de données est fait avec
l’outil Excel
8. Prétraitement sur les données
Changement de certaines valeurs manquantes
Remplacement de ‘-‘ (tiret) par 0
10. Partie statistique
outil de traitement
L’étude statistique et fouille de données sont
faites par l’outil R studio.
analyses statistiques
La Corrélation entre les variables
Le coefficient de corrélation (noté r) quantifie
l'intensité et le sens de la relation qui existe
entre deux variables.
11. La corrélation des attributs nous donne
une vision sur attributs qui varient
proportionnellement ou inversement
proportionnel.
Les attributs qui sont très proches vont
participé ensemble à formuler leur groupe.
13. Une corrélation positive de 0.57 entre les
vitamines A et D.
Cela signifie que lorsque la valeur de la
vitamine A augmente engendre une
augmentation de vitamine D et vice versa.
La vitamine A et D partage les mêmes sources
alimentaires Cela peut explique leur corrélation.
15. Une forte corrélation positive entre le Fer
et le magnésium cela peut être expliqué par
plusieurs facteurs qui aide à corréler ce deux
minéraux.
l’un de ces facteurs ce que ces
deux minéraux appartient au groupe des
minéraux.
De même ces deux minéraux ont
les mêmes conséquences en cas de carence(
Une fatigue, du stress, pâleur)
17. Une corrélation faible positive de 0.01 entre
Iode et vitamine B2
L’iode ne se corrèle qu’avec la vitamine B2 et la
vitamine C avec une corrélation positive
Faible.
La corrélation avec l’iode n’est pas
surprenante car il est un oligoélément qui ne se fi
gure qu’avec une quantité trace.
Cette faible corrélation est dû aux aliments
sources pour l’iode et vitamine B2 et C.
Ces compositions partage quelques sources.
19. Le R² est de 0.03294 porche de 0 c-à-dire il
s’agit d’un mauvais ajustement linéaire.
20. Bien que l’ajustement linéaire est mauvais
mais le modèle est globalement significatif
puisque le test de ficher est de 89.93 de mêm
e le test de student montre que le vitamine A
explique très bien l’énergie.
21. Ce mauvais ajustement linéaire s’exprime
par le nombre des variables prisent en
compte
Afin d’expliquer l’énergie autrement dit il y
a d’autre variables qu’il faut tenir compte
lors de sélection des variables explicatives a
fin d’améliorer le modèle.
25. La vitamine E est une variable explicative
dans le modèle ou la variable à expliqer est la
valeur énergétique.
R² est de 0.1336 représente un dixième du
modele « blue » (best linear unbiased estim
ator) qui est très très proche de 1.
En fouillant un peut dans nos références sur
le web et la source de données, on traouve
que la plus grande partie des calories vient
des huiles qui sont les sources de vitamine E.
26. Régression multiple de la valeur énergétique
Afin de bien expliquer le modèle, j’ai intégré d’autres
variables explicatives :
Energie en fonction de sucres, lipides, gluicides et protéine
27. Malgré que les gluicides expliquent la
valeur énergétique mais dans ce modèle ell
e a été exclue par le test de student.
La valeur de R² est de 0.7446 signifie qu’il
s’agit d’un ajustement linéaire médiocre
29. L’élimination de la variable gluicide du
modèle n’ a pas engendré une
amélioration sur le modèle pourtant elle a
été exclue dans le modèle précèdent ce
signifie que les autres variables ont
masqué son impacte.
31. Il n y a pas une grande amélioration du
modèle mais les variables explicatives ont
Masqué l’effet de vitamine E sur le
l’explication du modèle
32. Régression simple : cholestérol
Le cholestérol en fonction de vitamine de vitamine A
33. R² est de 0.03444, une valeur faible pour
un coefficient de détermination mais vu
qu’on a une seule variable explicative avec
une significativité de 2e-16 on peut
l’améliorer.
Ce modèle n’explique que 3,7% de
cholestérol.
Autres variables peuvent être ajoutées pour a
méliorer le modèle
38. Partie Data Mining
K moyenne
Comme une étape exploratoire il vaut mieux
commencer par étape d’Évaluation de
proportion d'inertie expliquée afin de cadrer le
nombre les classes à dégager
39.
40. Ce graphique nous donne une idée sur le
nombre des classes, ce graphique nous
aide à fixer le facteur k.
le graphique montre que le meilleur
nombre des classes à retenir est 10.
41. Un PPC de 90.8% est donné avec k=3
On croisant ce résultat avec le graphique
on remarque que 3 classes ne
discriminent pas
les observations d’une façon optimale
42. Le PCC est augmenter de 90.8% avec
k=3 à 98.7% avec k=10.
45. Kohonen
des nœuds formant la même classe ont
tendance à être proches
Avec l’algorithme de Kohonen, on déplace le
vecteur code gagnant, mais aussi ses
voisins.
46.
47. On constate que les observations dans les
groupes sont très similaires, cette
classification se base sur diagramme
circulaire
48.
49. Partie aide à la décision
Une application développée avec Qlik
Sense fournit des tableaux de bord et des
représentations graphiques interactives
vont faciliter la sélection des aliments tout
en prise en compte des besoins humaine
journalière.