Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

"Demain, le statisticien augmenté"

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 4 Publicité

"Demain, le statisticien augmenté"

Télécharger pour lire hors ligne

Interview avec le Prof. Diego Kuonen qui s'exprime sur les opportunités avec le big data et les nouvelles sources de données, et comment faire fasse à la révolution et transformation digitale. Entre autres, il compare un traitement efficace des données à une recette de cuisine ayant fait ses preuves.

Source: Magazine du personnel de l'Office fédéral de la statistique (OFS), 24.08.2017.

Interview avec le Prof. Diego Kuonen qui s'exprime sur les opportunités avec le big data et les nouvelles sources de données, et comment faire fasse à la révolution et transformation digitale. Entre autres, il compare un traitement efficace des données à une recette de cuisine ayant fait ses preuves.

Source: Magazine du personnel de l'Office fédéral de la statistique (OFS), 24.08.2017.

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Similaire à "Demain, le statisticien augmenté" (20)

Publicité

Plus par Prof. Dr. Diego Kuonen (20)

Plus récents (20)

Publicité

"Demain, le statisticien augmenté"

  1. 1. D-A-CH-Treffen in Neuchâtel Seite 12 La GrilLade servie selon le protocole – sans protocole de GL Page 16 C o m pe rs-News Page 20 InfosLe magazine du personnel de l’OFS No 3/2017 11:55 – 13:30 Aujourd’hui, la GL vous invite pour un moment de convivialité et de partage à l’occasion d’une grillade qui sera of- ferte sur la terrasse de l’OFS. Die GL lädt Sie heute zu einem gemüt- lichen Grill-Zmittag auf der BFS-Ter- rasse ein! Demain, le statisticien augmenté Page 6
  2. 2. 6 INFOS No 3/2017 AU CŒUR DU MÉTIER – IM KERNGESCHÄFT Demain, le statisticien augmenté Carole Greppin, SKS, en collaboration avec Diego Kuonen, entrepreneur et professeur de data science Le big data est sur toutes les lèvres: il a envahi l’industrie, le com- merce, la science… notre quotidien, en quelque sorte. Mais de quoi parle-t-on, au juste? Selon une définition commune, le terme big data (ou données massives ou encore mégadonnées), désigne les informations massives extraites du monde numérique (par exemple celles qui circulent sur Internet) qui sont rassemblées, stockées, traitées puis croisées pour permettre, dans l’idéal, une exploitation des données résultantes par des méthodes analytiques (analytics). Selon le statisticien et consultant Diego Kuonen (cf. encadré), les quatre caractéristiques suivantes – les quatre «V» – définis- sent ce qu’il préfère appeler une révolution digitale consécutive à la numérisation de contenus analogues en contenus digitaux («la première vague de transformation numérique», selon ses mots): Volume, caractérisant la masse d’informations en constante expansion, Variety, au regard de la diversité des informations, qu’elles soient sous forme de texte, image, vidéo, audio… Velocity, au vu de la vitesse à laquelle elles sont générées et doivent être traitées et, enfin, Veracity, qui prend en compte la confiance et la fiabilité des informations, relativise leur validité et inclut la qualité des données résultantes. L’OFS, en tant que producteur de données statistiques, est bien évidemment concerné par la multitude de données disponibles. La loi lui recommande d’ailleurs de faire le plus possible recours à des données existantes pour éviter de produire de nouvelles en- quêtes et la charge conséquente qu’elles représentent auprès des milieux interrogés. Mais peut-on faire confiance à ces données? «La véracité des données est l’élément clé! Elle met en avant la valeur ajoutée de la statistique (officielle) dans cette data revo- lution», selon les mots de Diego Kuonen. De fait, l’OFS bénéficie d’une longue expérience en matière de véracité des données. Depuis 1860, il remplit son mandat de dif- fusion d’information en travaillant avec des données de sources différentes, tout en répondant aux principes fondamentaux de l’activité statistique que sont: l’exactitude scientifique, la com- parabilité, la protection des données, la transparence, pour n’en citer que quelques-uns. Le phénomène de la révolution digitale ne touche bien évi- demment pas uniquement l’OFS: sur le plan international, l’accès et l’utilisation de nouvelles données sont à l’ordre du jour dans les conférences globales. Au niveau national également, diverses stratégies (Stratégie Suisse numérique, politique des données de la Confédération) ont vu le jour. Celles-ci sont cependant principa- lement orientées solutions technologiques; selon Diego Kuonen, «elles répondent aux trois premiers «V», et ne tiennent pas tou- jours compte en détail du 4e «V» qui est la véracité et qui qualifie l’utilisation des données». Le scientifique met en garde des potentiels «cimetières» de données que nombre d’entreprises sont en train de construire: «à quoi sert l’accumulation de données si celles-ci ne sont pas de qualité et représentatives?» La valeur ajoutée des données Pour que des données fiables restent utiles et donc vivantes, elles doivent subir une «seconde vague de transformation numérique» qui permette d’en tirer une valeur ajoutée: l’apprentissage des données par des méthodes analytiques (analytics). De fait, l’OFS ne bénéficie pas seulement d’une longue expéri- ence en matière de véracité des données, mais aussi en métho- des statistiques permettant l’apprentissage des données. Pour Diego Kuonen, la véracité des données est l’élément clé dans la révolution digitale.
  3. 3. 7No 3/2017 INFOS AU CŒUR DU MÉTIER – IM KERNGESCHÄFT Data Innovation Pour faire face à ces nouveaux défis, la direction de l’OFS a créé un groupe de travail, le groupe New Data Sources, composé de représentants des différentes divisions de production et des domaines stratégique et méthodologique, auquel Diego Kuonen apporte son savoir en tant que consultant externe. C’est qu’il en connaît un rayon, lui dont la spécialité consiste depuis 2001 à aider les entreprises dans leur tâche complexe consistant à transformer en avantage les nombreuses données dont elles disposent. Une première grande étape sera franchie fin 2017 lorsque l’OFS rendra publique sa stratégie sur la «Data Innovation». Cette dernière consiste dans l’application de méthodes analy- tiques alternatives (par exemple, des méthodes de la statistique avancée, de la data science et/ou du machine learning) à des sources de données existantes (ou traditionnelles) et/ou nou- velles (et/ou non-traditionnelles), tout en garantissant leur fiabilité et leur transparence. En d’autres termes: «C’est un peu comme en cuisine», com- pare Diego Kuonen: «pour concocter un bon plat, vous privilé- gierez des ingrédients de qualité (les données), exigerez de la transparence dans la chaîne de production de ces derniers, et suivrez une recette (la méthode ou l’algorithme analytique) à la lettre pour obtenir un résultat concluant. Si votre recette est efficace, vous pouvez ensuite reproduire le plat, voire en changer les ingrédients, et ainsi élargir votre éventail de menus!» Données primaires vs données secondaires Traditionnellement, notre office travaille avec des données pri- maires qui sont autant de réponses à des questions formulées dans le cadre d’une enquête. Citons l’exemple d’un recensement: l’OFS collecte des don- nées dans un but statistique pour valider une idée ou théorie. La population est interrogée sur la base de critères établis et la collection des données est «sous contrôle» de l’OFS. Les résul- tats permettront d’émettre des déductions. Les données secondaires quant à elles sont des données qui n’ont pas été produites (et souvent pas contrôlées) par l’OFS mais qui sont disponibles et que ce dernier pourrait potentiellement utiliser à des fins statistiques (si la méthodologique statistique le permet, comme c’est le cas pour nos registres internes). Pensons notamment aux nombreux registres, données administratives et multiples données digitales disponibles; ces données secondaires, externes à l’OFS, ne sont initialement pas destinées à des fins statistiques mais peuvent être utilisées pour créer de nouvelles idées ou théories par induction. Ces deux approches analytiques – déductive et inductive – sont complémentaires et s’alimentent l’une l’autre de manière «infinie» pour permettre une amélioration continue. Le statisticien George E. P. Box l’illustre avec un exemple très concret: partant de l’idée qu’on parque sa voiture tous les jours sur sa place privée, le lien cyclique entre déductive et inductive pourrait se jouer sur le scénario suivant: Idée (théorie): Aujourd’hui, c’est comme tous les jours. Déduction: Ma voiture sera sur la place de parking. Donnée: Elle n’y est pas! Induction: Quelqu’un a dû la prendre. Idée (théorie): Ma voiture a été volée. Déduction: Ma voiture ne sera pas au parking. Donnée: Non; elle est là! Induction: Quelqu’un l’a enlevée et ramenée. Idée (théorie): Un voleur l’a enlevée et ramenée. Déduction: Ma voiture aura été forcée. Donnée: Non: elle est indemne et fermée à clé! Induction: La personne qui l’a prise avait la clé. Idée (théorie): Ma femme a utilisé ma voiture Déduction: Elle a sûrement laissé un mot. Donnée: Oui; le voici! Le challenge réside dans la méthodologie assurant le cou- plement de ces données qui s’alimentent réciproquement et viennent ainsi augmenter leur valeur ajoutée. Le statisticien «augmenté» Quel devient le rôle du statisticien face à ces méthodologies de plus en plus sophistiquées assurant des calculs de plus en plus automatisés? Devrons-nous tous devenir des informaticiens? Le travail du statisticien sera-t-il remplacé par les opérations de l’or- dinateur? «Il n’en est rien», rassure Diego Kuonen. «L’être humain est central, il définit tout!» et ainsi de reprendre l’exemple culinaire cité plus haut: «Si l’on peut gagner du temps en s’aidant d’un mixer pour confectionner un gâteau, pourquoi battre sa pâte à la main? Cette augmentation d’efficacité grâce au mixer ne rend pas moins indispensable le savoir-faire du pâtissier, qui définit les ingrédients, les étapes de la préparation, toute la chaîne de production. Il en va de même dans la production statistique.» Ne pas profiter de ces possibilités informatiques serait aller à contre-courant. «Bien au contraire, il faut sortir de sa routine et faire preuve de curiosité, de créativité, de capacité à se remettre en question pour continuellement améliorer son travail et s’adap- ter au changement». Et Diego Kuonen de conclure: «Personne ne connaît l’avenir». Pas même les algorithmes.
  4. 4. 8 INFOS No 3/2017 Le regard de Jean-Pierre Renfer, chef de la section METH La valeur ajoutée des données Les données n’ont de sens que si elles permettent d’apporter des réponses aux questions/problèmes posés. Leur valeur ajoutée réside dans l’interprétation que l’on est en droit de faire une fois les données traitées par des méthodes statistiques. Les données peuvent être considérées comme le matériel brut pour cela, à l’instar des diamants qui ne demandent qu’à être taillés! La première plus-value réside dans la préparation des données pour qu’elles soient prêtes pour effectuer des analyses: pour cela elles doivent subir un traitement qui consiste par exemple à détecter puis à traiter les inconsistances, les données manquan- tes et/ou aberrantes. Ces traitements basés sur des méthodes statistiques éprouvées sont tout aussi importants et utiles lors AU CŒUR DU MÉTIER – IM KERNGESCHÄFT Le cartoon de Enrico Enrico Chavez est titulaire d’un doctorat en statistique de l’Ecole polytechnique fédérale de Lausanne (EPFL), Senior Statistician chez Nestlé et vice-président de la Société Suisse de Statistique SSS. Il est également cartooniste. Sa créativité consiste à jeter des ponts entre l'humour et la statistique, dans des illustrations colorées à découvrir au fil des numéros de Infos. Créateur de la société Statoo Consulting, qu’il a fondée et qu’il dirige depuis 2001, Diego Kuonen est statisticien et pro- fesseur de data science au Centre de recherche en statis- tique (Faculté d’économie et de management) à l’Université de Genève. Originaire de Zermatt dans le Haut-Valais, il est titulaire d’un Master en mathématiques (1998) et d’un Doc- torat en statistique (2001) de l’Ecole polytechnique fédérale de Lausanne (EPFL), qu’il a obtenus grâce à ses travaux exceptionnels dans la statistique appliquée. Son visage est connu de nombreux collaborateurs et collaboratrices à l’OFS, puisqu’il a été pendant treize ans dans le comité de la SSS (Société Suisse de Statistique), dont six ans comme président (2009–2015), et engagé dans l’organisation des Journées suisses de la statistique pendant de nombreuses années, dont trois fois (2005, 2013, 2015) comme président du comité d’organisation. L’informatique ne remplace par l’être humain (ici le statisticien) mais augmente ses capacités.

×