SlideShare une entreprise Scribd logo
1  sur  50
Nutrition et bien être
Plan
 Introduction
 Exploration du domaine d’application
 Prétraitement des données
 Étude statistique
 Data Mining
 Partie aide a la décision
Introduction
 Description des données
 La base de données intitulé table Ciqual, un
fichier Excel comporte 2642 observations et
50 attributs.
 La table Ciqual comporte les compositions
nutritionnelles des aliments
 Objectifs du projet
Exploration du domaine
d’application
 L'objectif principal d'une recherche
qualitative est de fournir une description
complète et détaillée du sujet de
recherche.
 Une recherche quantitative c’est
demander l’avis de l’expert
Prétraitement des données
 prétraitement sur la structure des données
Nomination des attributs
Ancienne Libellé Nouvelle libellé
ORIGGPCD Code famille d’aliments
ORIGGPFR Libelle Famille d’aliments
ORIGFDCD Code de l’aliment
AG 4:0, butyrique (g/100g) butyrique (g/100g)
AG 6:0, caproïque (g/100g) caproïque (g/100g)
AG 8:0, caprylique (g/100g) caprylique (g/100g)
 Vu la recherche et l’exploration du
domaine d’application, j’ai gardé
seulement les vitamines et les minéraux
indispensables ainsi la valeur énergétique
et la valeur de cholestérol, sucres,
gluicides,lipides, protéines
 Le prétraitement de données est fait avec
l’outil Excel
 Prétraitement sur les données
Changement de certaines valeurs manquantes
Remplacement de ‘-‘ (tiret) par 0
 Remplacement de la valeur ‘traces‘ par 0
Partie statistique
 outil de traitement
L’étude statistique et fouille de données sont
faites par l’outil R studio.
 analyses statistiques
La Corrélation entre les variables
Le coefficient de corrélation (noté r) quantifie
l'intensité et le sens de la relation qui existe
entre deux variables.
 La corrélation des attributs nous donne
une vision sur attributs qui varient
proportionnellement ou inversement
proportionnel.
 Les attributs qui sont très proches vont
participé ensemble à formuler leur groupe.
Corrélation entre les vitamines
 Une corrélation positive de 0.57 entre les
vitamines A et D.
 Cela signifie que lorsque la valeur de la
vitamine A augmente engendre une
augmentation de vitamine D et vice versa.
La vitamine A et D partage les mêmes sources
alimentaires Cela peut explique leur corrélation.
Corrélation entre les minéraux
 Une forte corrélation positive entre le Fer
et le magnésium cela peut être expliqué par
plusieurs facteurs qui aide à corréler ce deux
minéraux.
l’un de ces facteurs ce que ces
deux minéraux appartient au groupe des
minéraux.
De même ces deux minéraux ont
les mêmes conséquences en cas de carence(
Une fatigue, du stress, pâleur)
Corrélation entre vitamines et minéraux
 Une corrélation faible positive de 0.01 entre
Iode et vitamine B2
 L’iode ne se corrèle qu’avec la vitamine B2 et la
vitamine C avec une corrélation positive
Faible.
La corrélation avec l’iode n’est pas
surprenante car il est un oligoélément qui ne se fi
gure qu’avec une quantité trace.
 Cette faible corrélation est dû aux aliments
sources pour l’iode et vitamine B2 et C.
 Ces compositions partage quelques sources.
 une régression
Régression simple de la valeur énergétique
Energie en fonction de vitamine A
 Le R² est de 0.03294 porche de 0 c-à-dire il
s’agit d’un mauvais ajustement linéaire.
 Bien que l’ajustement linéaire est mauvais
mais le modèle est globalement significatif
puisque le test de ficher est de 89.93 de mêm
e le test de student montre que le vitamine A
explique très bien l’énergie.
 Ce mauvais ajustement linéaire s’exprime
par le nombre des variables prisent en
compte
 Afin d’expliquer l’énergie autrement dit il y
a d’autre variables qu’il faut tenir compte
lors de sélection des variables explicatives a
fin d’améliorer le modèle.
Energie en fonction de vitamine B1
Energie en fonction des sucres
Energie en fonction de vitamine E
 La vitamine E est une variable explicative
dans le modèle ou la variable à expliqer est la
valeur énergétique.
 R² est de 0.1336 représente un dixième du
modele « blue » (best linear unbiased estim
ator) qui est très très proche de 1.
 En fouillant un peut dans nos références sur
le web et la source de données, on traouve
que la plus grande partie des calories vient
des huiles qui sont les sources de vitamine E.
Régression multiple de la valeur énergétique
 Afin de bien expliquer le modèle, j’ai intégré d’autres
variables explicatives :
Energie en fonction de sucres, lipides, gluicides et protéine
 Malgré que les gluicides expliquent la
valeur énergétique mais dans ce modèle ell
e a été exclue par le test de student.
 La valeur de R² est de 0.7446 signifie qu’il
s’agit d’un ajustement linéaire médiocre
Energie en fonction de sucres, lipides et proteine
 L’élimination de la variable gluicide du
modèle n’ a pas engendré une
amélioration sur le modèle pourtant elle a
été exclue dans le modèle précèdent ce
signifie que les autres variables ont
masqué son impacte.
Energie en fonction de sucres,lipides,peroteine et
vitamine E
 Il n y a pas une grande amélioration du
modèle mais les variables explicatives ont
Masqué l’effet de vitamine E sur le
l’explication du modèle
 Régression simple : cholestérol
Le cholestérol en fonction de vitamine de vitamine A
 R² est de 0.03444, une valeur faible pour
un coefficient de détermination mais vu
qu’on a une seule variable explicative avec
une significativité de 2e-16 on peut
l’améliorer.
 Ce modèle n’explique que 3,7% de
cholestérol.
Autres variables peuvent être ajoutées pour a
méliorer le modèle
 Régression multiple : cholestérol
Cholestérol en fonction de vitamine A et E
 La vitamine E n’est pas une variable
explicative dans ce modèle, avec une
signification
 de 0.18 >0.05 le test de student exclue la
vitamine E
Cholestérol en fonction de sucres, lipides et vitamine A
Partie Data Mining
 K moyenne
Comme une étape exploratoire il vaut mieux
commencer par étape d’Évaluation de
proportion d'inertie expliquée afin de cadrer le
nombre les classes à dégager
 Ce graphique nous donne une idée sur le
nombre des classes, ce graphique nous
aide à fixer le facteur k.
 le graphique montre que le meilleur
nombre des classes à retenir est 10.
 Un PPC de 90.8% est donné avec k=3
 On croisant ce résultat avec le graphique
on remarque que 3 classes ne
discriminent pas
 les observations d’une façon optimale
 Le PCC est augmenter de 90.8% avec
k=3 à 98.7% avec k=10.
 7 groupes d'aliments :
 • Produits laitiers
 • Viande, poisson, œufs
 • Féculents, céréales, pain
 • Fruits et légumes
 • Matières grasses
 • Produits sucrés
 • Boissons
 K=11 une chute en PCC de 98.7% à
92.8%
 Kohonen
des nœuds formant la même classe ont
tendance à être proches
Avec l’algorithme de Kohonen, on déplace le
vecteur code gagnant, mais aussi ses
voisins.
 On constate que les observations dans les
groupes sont très similaires, cette
classification se base sur diagramme
circulaire
Partie aide à la décision
 Une application développée avec Qlik
Sense fournit des tableaux de bord et des
représentations graphiques interactives
vont faciliter la sélection des aliments tout
en prise en compte des besoins humaine
journalière.
Des questions ?

Contenu connexe

En vedette

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

En vedette (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Nutrition et bien être

  • 2. Plan  Introduction  Exploration du domaine d’application  Prétraitement des données  Étude statistique  Data Mining  Partie aide a la décision
  • 3. Introduction  Description des données  La base de données intitulé table Ciqual, un fichier Excel comporte 2642 observations et 50 attributs.  La table Ciqual comporte les compositions nutritionnelles des aliments
  • 5. Exploration du domaine d’application  L'objectif principal d'une recherche qualitative est de fournir une description complète et détaillée du sujet de recherche.  Une recherche quantitative c’est demander l’avis de l’expert
  • 6. Prétraitement des données  prétraitement sur la structure des données Nomination des attributs Ancienne Libellé Nouvelle libellé ORIGGPCD Code famille d’aliments ORIGGPFR Libelle Famille d’aliments ORIGFDCD Code de l’aliment AG 4:0, butyrique (g/100g) butyrique (g/100g) AG 6:0, caproïque (g/100g) caproïque (g/100g) AG 8:0, caprylique (g/100g) caprylique (g/100g)
  • 7.  Vu la recherche et l’exploration du domaine d’application, j’ai gardé seulement les vitamines et les minéraux indispensables ainsi la valeur énergétique et la valeur de cholestérol, sucres, gluicides,lipides, protéines  Le prétraitement de données est fait avec l’outil Excel
  • 8.  Prétraitement sur les données Changement de certaines valeurs manquantes Remplacement de ‘-‘ (tiret) par 0
  • 9.  Remplacement de la valeur ‘traces‘ par 0
  • 10. Partie statistique  outil de traitement L’étude statistique et fouille de données sont faites par l’outil R studio.  analyses statistiques La Corrélation entre les variables Le coefficient de corrélation (noté r) quantifie l'intensité et le sens de la relation qui existe entre deux variables.
  • 11.  La corrélation des attributs nous donne une vision sur attributs qui varient proportionnellement ou inversement proportionnel.  Les attributs qui sont très proches vont participé ensemble à formuler leur groupe.
  • 13.  Une corrélation positive de 0.57 entre les vitamines A et D.  Cela signifie que lorsque la valeur de la vitamine A augmente engendre une augmentation de vitamine D et vice versa. La vitamine A et D partage les mêmes sources alimentaires Cela peut explique leur corrélation.
  • 15.  Une forte corrélation positive entre le Fer et le magnésium cela peut être expliqué par plusieurs facteurs qui aide à corréler ce deux minéraux. l’un de ces facteurs ce que ces deux minéraux appartient au groupe des minéraux. De même ces deux minéraux ont les mêmes conséquences en cas de carence( Une fatigue, du stress, pâleur)
  • 17.  Une corrélation faible positive de 0.01 entre Iode et vitamine B2  L’iode ne se corrèle qu’avec la vitamine B2 et la vitamine C avec une corrélation positive Faible. La corrélation avec l’iode n’est pas surprenante car il est un oligoélément qui ne se fi gure qu’avec une quantité trace.  Cette faible corrélation est dû aux aliments sources pour l’iode et vitamine B2 et C.  Ces compositions partage quelques sources.
  • 18.  une régression Régression simple de la valeur énergétique Energie en fonction de vitamine A
  • 19.  Le R² est de 0.03294 porche de 0 c-à-dire il s’agit d’un mauvais ajustement linéaire.
  • 20.  Bien que l’ajustement linéaire est mauvais mais le modèle est globalement significatif puisque le test de ficher est de 89.93 de mêm e le test de student montre que le vitamine A explique très bien l’énergie.
  • 21.  Ce mauvais ajustement linéaire s’exprime par le nombre des variables prisent en compte  Afin d’expliquer l’énergie autrement dit il y a d’autre variables qu’il faut tenir compte lors de sélection des variables explicatives a fin d’améliorer le modèle.
  • 22. Energie en fonction de vitamine B1
  • 23. Energie en fonction des sucres
  • 24. Energie en fonction de vitamine E
  • 25.  La vitamine E est une variable explicative dans le modèle ou la variable à expliqer est la valeur énergétique.  R² est de 0.1336 représente un dixième du modele « blue » (best linear unbiased estim ator) qui est très très proche de 1.  En fouillant un peut dans nos références sur le web et la source de données, on traouve que la plus grande partie des calories vient des huiles qui sont les sources de vitamine E.
  • 26. Régression multiple de la valeur énergétique  Afin de bien expliquer le modèle, j’ai intégré d’autres variables explicatives : Energie en fonction de sucres, lipides, gluicides et protéine
  • 27.  Malgré que les gluicides expliquent la valeur énergétique mais dans ce modèle ell e a été exclue par le test de student.  La valeur de R² est de 0.7446 signifie qu’il s’agit d’un ajustement linéaire médiocre
  • 28. Energie en fonction de sucres, lipides et proteine
  • 29.  L’élimination de la variable gluicide du modèle n’ a pas engendré une amélioration sur le modèle pourtant elle a été exclue dans le modèle précèdent ce signifie que les autres variables ont masqué son impacte.
  • 30. Energie en fonction de sucres,lipides,peroteine et vitamine E
  • 31.  Il n y a pas une grande amélioration du modèle mais les variables explicatives ont Masqué l’effet de vitamine E sur le l’explication du modèle
  • 32.  Régression simple : cholestérol Le cholestérol en fonction de vitamine de vitamine A
  • 33.  R² est de 0.03444, une valeur faible pour un coefficient de détermination mais vu qu’on a une seule variable explicative avec une significativité de 2e-16 on peut l’améliorer.  Ce modèle n’explique que 3,7% de cholestérol. Autres variables peuvent être ajoutées pour a méliorer le modèle
  • 34.
  • 35.  Régression multiple : cholestérol Cholestérol en fonction de vitamine A et E
  • 36.  La vitamine E n’est pas une variable explicative dans ce modèle, avec une signification  de 0.18 >0.05 le test de student exclue la vitamine E
  • 37. Cholestérol en fonction de sucres, lipides et vitamine A
  • 38. Partie Data Mining  K moyenne Comme une étape exploratoire il vaut mieux commencer par étape d’Évaluation de proportion d'inertie expliquée afin de cadrer le nombre les classes à dégager
  • 39.
  • 40.  Ce graphique nous donne une idée sur le nombre des classes, ce graphique nous aide à fixer le facteur k.  le graphique montre que le meilleur nombre des classes à retenir est 10.
  • 41.  Un PPC de 90.8% est donné avec k=3  On croisant ce résultat avec le graphique on remarque que 3 classes ne discriminent pas  les observations d’une façon optimale
  • 42.  Le PCC est augmenter de 90.8% avec k=3 à 98.7% avec k=10.
  • 43.  7 groupes d'aliments :  • Produits laitiers  • Viande, poisson, œufs  • Féculents, céréales, pain  • Fruits et légumes  • Matières grasses  • Produits sucrés  • Boissons
  • 44.  K=11 une chute en PCC de 98.7% à 92.8%
  • 45.  Kohonen des nœuds formant la même classe ont tendance à être proches Avec l’algorithme de Kohonen, on déplace le vecteur code gagnant, mais aussi ses voisins.
  • 46.
  • 47.  On constate que les observations dans les groupes sont très similaires, cette classification se base sur diagramme circulaire
  • 48.
  • 49. Partie aide à la décision  Une application développée avec Qlik Sense fournit des tableaux de bord et des représentations graphiques interactives vont faciliter la sélection des aliments tout en prise en compte des besoins humaine journalière.