IBM Watson

833 vues

Publié le

Vers un ordinateur sachant raisonner…. .une Synthèse Créative du meilleur état de l’art des Technologies

0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
833
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
27
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

IBM Watson

  1. 1. Cercle Alumni IBM – 18 octobre 2011 Vers un ordinateur sachant raisonner…. ….une Synthèse Créative du meilleur état de l’art des Technologies. Claude Riousset Executive Architect © 2011 IBM Corporation
  2. 2. Cercle Alumni IBM – 18 octobre 2011 En Février 2011, 14 ans après avoir battu Kasparov aux échecs, un nouvel ordinateur IBM remportait une série de 3 parties qui l’opposait aux 2 champions de tous les temps du jeu télévisé américain «Jeopardy». © 2011 IBM Corporation
  3. 3. Cercle Alumni IBM – 18 octobre 2011Agenda Qu’est-ce que Watson ? Principe du jeu « Jeopardy » Les principes et technologies mises en œuvre pour Watson Les applications possibles Le futur © 2011 IBM Corporation
  4. 4. Cercle Alumni IBM – 18 octobre 2011Qu’est-ce que Watson? Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a battu les 2 meilleurs candidats de toute l’histoire du jeu (depuis le 30 mars 1964). Un ordinateur conçu par une équipe d’IBM Research capable de rivaliser avec les humains en répondant à des questions posées en langage naturel avec rapidité et précision. Un système capable de comprendre la signification et le contexte du langage humain pour traiter l’information rapidement et trouver des réponses précises à des questions complexes. © 2011 IBM Corporation
  5. 5. Cercle Alumni IBM – 18 octobre 2011 Du langage au projet Watson pour Jeopardy, le principe du jeu Technologie Classique Grands Citations TECHNOLOGIE Savoir Avant et 6 Catégories Espaces de Dickens vivre Après $200 $200 $200 $200 $200 $200 TOUS LES POLICIERS PEUVENT $400 $400 REMERCIER STEPHANIE$400 $400 $400 $400 KWOLEK POUR L’INVENTION 5 degrés de $600 $600 DE CETTE FIBRE POLYMERE, 5 $600 $600 $600 $600 Difficulté FOIS PLUS RESISTANTE QUE $800 $800 $800 $800 $800 $800 L’ACIER $1000 $1000 $1000 $1000 $1000 $1000 Si la réponse est bonne L’un des 3 joueurs choisit unecase Le joueur gagne le montant de la case L’animateur lit l’énigme àvoix haute Qu’est-ce que le KEVLAR ? choisit une autre case Et Si la réponse est fausse Le 1er joueur qui “buzz” peut Le joueur perd le montantrépondre de la case 2 manches par jeu + une Question finale les autres joueurs peuvent “buzzer” une règle de doublement des points © 2011 IBM Corporation 5
  6. 6. Cercle Alumni IBM – 18 octobre 2011Du jeu d’échec au langage… Jeu d’échecs – Un espace de solution fini et totalement structuré – Un nombre limité de mouvement et d’états – Des règles mathématiques qui s’appliquent à des symboles finis Langage humain – Les mots n’ont pas de signification par eux-mêmes – Ils sont associés à une expérience humaine – Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées. – Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une signification © 2011 IBM Corporation 6
  7. 7. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce qu’une question facile ?ln((12,546,798 * π)) ^ 2 / 34,567.46 = 0.00885Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”, Owner Serial Number David Jones 45322190-AK Invoice # Vendor Payment INV10895 MyBuy $104.56 Serial Number Type Invoice # 45322190-AK LapTop INV10895 David Jones Dave Jones David Jones = David Jones ≠ 7 © 2011 IBM Corporation 7
  8. 8. Cercle Alumni IBM – 18 octobre 2011Qu’est-ce qu’une question difficile ?Les programmes informatiques sont nativement explicites, rapides et exigeants pour menerdes calculs sur des nombres et des symboles….alors que le Langage naturel est implicite,très contextuel, ambigu et souvent imprécis. Person Birth Place Structured A. Einstein ULM Unstructured Where was X born? One day, from among his city views of Ulm, Otto chose a water color to send to Albert Einstein as a remembrance of Einstein´s birthplace. Person Organization J. Welch GE X ran this? If leadership is an art then surely Jack Welch has proved himself a master painter during his tenure at GE. © 2011 IBM Corporation 8
  9. 9. Cercle Alumni IBM – 18 octobre 2011Apprentissage Automatique par la “Lecture”Volumes of Text Syntactic Frames Semantic Frames Inventors patent inventions (.8) Officials Submit Resignations (.7) People earn degrees at schools (0.9) Fluid is a liquid (.6) Liquid is a fluid (.5) Vessels Sink (0.7) People sink 8-balls (0.5) (in pool/0.8) IBM Confidential © 2011 IBM Corporation
  10. 10. Cercle Alumni IBM – 18 octobre 2011 La correspondance de mots-clés n’est pas suffisante En Mai 1898 le Portugal a célébré En Mai, Georges est arrivé le 400eme anniversaire de en Inde après avoir célébré l’arrivée de cet explorateur en son anniversaire au Inde. Portugal. Est arrivé A célébré Correspondance A célébré En Mai Correspondance En Mai 1898 400eme Correspondance anniversaire anniversaire“Georges” est la Portugal Correspondance au Portugalréponse évidente par L’arrivéecorrespondance desmots-clés cependant Correspondancel’ordinateur ne doit Inde Indepas accorder unegrande confiance à explorateur Georgescette réponse. © 2011 IBM Corporation 10
  11. 11. Cercle Alumni IBM – 18 octobre 2011 Des éléments plus probables En Mai 1898 le Portugal a célébré Le 27 Mai 1498, Vasco da Gama a le 400eme anniversaire de débarqué à Kappad Beach l’arrivée de cet explorateur en Inde. Recherche élargie Explorer de nombreuses hypothèses A célébré A Peser les réponses débarqué Portugal Différents algorithmes 400eme Raisonnement Mai 1898 27 Mai 1498 anniversaire temporel Date Math Paraphrase L’arrivée statistique Para- phrases Inde Raisonnement Kappad Beach GeoSpatialUn résultat Geo-plus probable KB explorateur Vasco da Gaman’est pastoujours simpleà obtenir Le résultat n’est toujours pas certain à © 2011 IBM Corporation 100%. 11
  12. 12. 11Cercle Alumni IBM – 18 octobre 2011Le moteur d’analyse de Watson est plus qu’un outil de recherche• Une recherche sur le Web retourne une liste de résultats possibles contenant la réponse – Les résultats des moteurs de recherche sont basés sur leur popularité et leur référencement – L’utilisateur doit encore analyser le résultat pour trouver la meilleure réponse• Le moteur d’analyse de Watson comprend la structure et le libellé de la question posée – Il trouve une réponse spécifique – Il classe les réponses en donnant en “degré de confiance” basé sur l’expérience• Watson répond à des questions en “langage naturel” – Qui peut inclure des jeux de mots, de l’argot, du jargon et des acronymes qui doivent être évalués[12] © 2011 IBM Corporation 2011-02-23 12
  13. 13. Cercle Alumni IBM – 18 octobre 2011 DeepQA : La Technologie de Watson Architecture Massivement Parallèle ; Système probabiliste à base de “preuves” Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement .Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus grand “degré de confiance” Modèles appris pour combiner et peser les “preuves” Sources Balance Preuves & Combine Sources Models Models Réponses EvalQuestion Eval. Recherche Models Models Réponses preuve Preuves 100,000’s Scores from Recherche Generation forte many Deep Analysis 1000’s of Models Models primaire Pieces of Evidence Algorithms Réponse 100’s Possible Answers Multiple 100’s Interpretations sources Analyse Evaluation des Classement Décomposition GénérationQuestion & Hypothèses et des Synthèse assemblage des De la Question Hypothèse sujet “preuves” réponses Réponse et degré Génération Hypothèses et évaluation de confiance des réponses Hypothèse ... © 2011 IBM Corporation 13
  14. 14. Cercle Alumni IBM – 18 octobre 2011La Performance humaine comparée à celle des ordinateurs Chaque point represente les performances d’un joueur à Jeopardy Performance des gagnants Performance des grands champions 2007 QA Computer System More Confident Less Confident[14] Financial Services GTO 2011 -Corporation DISTRIBUTE © 2011 IBM DO NOT 2011-04-07 14
  15. 15. Cercle Alumni IBM – 18 octobre 2011DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010 v0.8 11/10 V0.7 04/10 v0.6 10/09 v0.5 05/09 v0.4 12/08 v0.3 08/08 v0.2 05/08 v0.1 12/07 IBM Watson joue dans le domaine des gagnants Baseline 12/06 © 2011 IBM Corporation 15
  16. 16. Cercle Alumni IBM – 18 octobre 2011 L’infrastructure technique de Watson, ou comment gérer plus de 10000 conversations•Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz.Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes.Le système se compose de … Performance et dispositifs– 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs & – Puissance de 80 teraflops par seconde (80 trillion cluster disque système) d’operations/sec)– 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM) – Le processeur P7 est designé pour les charges de traitement– Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU massivement parallèle (comme celles de Watson) cores (32 cores/node) pour un total de 2,880 cores – Le Power 750 comprend des dispositifs de gestion de l’énergie,– Interconnection a 10gigE (réseau ethernet) en faisant le 1er système à 4 processeurs qualifié “ENERGY STAR” Power7 © 2011 IBM Corporation 16
  17. 17. 11Cercle Alumni IBM – 18 octobre 2011 Vers de nouveaux domaines d’application Santé et Sciences de la Vie Diagnostic Assistance “In healthcare, we talk about turning data into knowledge. Evidence-based Collaborative Medicine That’s really what Watson does.” Support Technique: Joe Jasinski help-desk, call centers Program Director, IBM Healthcare and Life Sciences Research Enterprise knowledge management and business intelligence Government citizen services …. © 2011 IBM Corporation 17
  18. 18. 11Cercle Alumni IBM – 18 octobre 2011 DeepQA : Diagnostic en continu Symptômes Traite et synthetise une grande quantité de preuves pour améliorer le diagnostic Diagnosis Models Confidence Antécédents Familiaux PB Renal Histoire du Patient UTI Traitements Diabetes Tests/Résultats Influenza Notes/Hypotheses hypokalemie esophogitis MostConfident Diagnosis: Rhume Most ConfidentDiagnosis: Diabetes Most Confident Diagnosis: UTI Most Confident Diagnosis: Diabetes and Esophogitis Grands Volumes de Textes, publications, Références, DBs etc.en langage naturel © 2011 IBM Corporation 18
  19. 19. When it comes to the future, there are three kinds of people: those who let it happen, those who make it happen, and those who wonder what happened.” John M. Richardson, Jr., American academic and authorClaude Riousset, Executive Architect - Systems & Technology Group
  20. 20. Cercle Alumni IBM – 18 octobre 2011 © 2011 IBM Corporation 20
  21. 21. Cercle Alumni IBM – 18 octobre 2011 Vers un ordinateur sachant raisonner…. ….une Synthèse Créative du meilleur état de l’art des Technologies. Claude Riousset Executive Architect © 2011 IBM Corporation
  22. 22. Cercle Alumni IBM – 18 octobre 2011 En Février 2011, 14 ans après avoir battu Kasparov aux échecs, un nouvel ordinateur IBM remportait une série de 3 parties qui l’opposait aux 2 champions de tous les temps du jeu télévisé américain «Jeopardy». © 2011 IBM Corporation
  23. 23. Cercle Alumni IBM – 18 octobre 2011Agenda Qu’est-ce que Watson ? Principe du jeu « Jeopardy » Les principes et technologies mises en œuvre pour Watson Les applications possibles Le futur © 2011 IBM Corporation
  24. 24. Cercle Alumni IBM – 18 octobre 2011Qu’est-ce que Watson? Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a battu les 2 meilleurs candidats de toute l’histoire du jeu (depuis le 30 mars 1964). Un ordinateur conçu par une équipe d’IBM Research capable de rivaliser avec les humains en répondant à des questions posées en langage naturel avec rapidité et précision. Un système capable de comprendre la signification et le contexte du langage humain pour traiter l’information rapidement et trouver des réponses précises à des questions complexes. © 2011 IBM Corporation
  25. 25. Cercle Alumni IBM – 18 octobre 2011 Du langage au projet Watson pour Jeopardy, le principe du jeu Technologie Classique Grands Citations TECHNOLOGIE Savoir Avant et 6 Catégories Espaces de Dickens vivre Après $200 $200 $200 $200 $200 $200 TOUS LES POLICIERS PEUVENT $400 $400 REMERCIER STEPHANIE$400 $400 $400 $400 KWOLEK POUR L’INVENTION 5 degrés de $600 $600 DE CETTE FIBRE POLYMERE, 5 $600 $600 $600 $600 Difficulté FOIS PLUS RESISTANTE QUE $800 $800 $800 $800 $800 $800 L’ACIER $1000 $1000 $1000 $1000 $1000 $1000 Si la réponse est bonne L’un des 3 joueurs choisit unecase Le joueur gagne le montant de la case L’animateur lit l’énigme àvoix haute Qu’est-ce que le KEVLAR ? choisit une autre case Et Si la réponse est fausse Le 1er joueur qui “buzz” peut Le joueur perd le montantrépondre de la case 2 manches par jeu + une Question finale les autres joueurs peuvent “buzzer” une règle de doublement des points © 2011 IBM Corporation 5
  26. 26. Cercle Alumni IBM – 18 octobre 2011Du jeu d’échec au langage… Jeu d’échecs – Un espace de solution fini et totalement structuré – Un nombre limité de mouvement et d’états – Des règles mathématiques qui s’appliquent à des symboles finis Langage humain – Les mots n’ont pas de signification par eux-mêmes – Ils sont associés à une expérience humaine – Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées. – Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une signification © 2011 IBM Corporation 6
  27. 27. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce qu’une question facile ?ln((12,546,798 * π)) ^ 2 / 34,567.46 = 0.00885Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”, Owner Serial Number David Jones 45322190-AK Invoice # Vendor Payment INV10895 MyBuy $104.56 Serial Number Type Invoice # 45322190-AK LapTop INV10895 David Jones Dave Jones David Jones = David Jones ≠ 7 © 2011 IBM Corporation 7
  28. 28. Cercle Alumni IBM – 18 octobre 2011Qu’est-ce qu’une question difficile ?Les programmes informatiques sont nativement explicites, rapides et exigeants pour menerdes calculs sur des nombres et des symboles….alors que le Langage naturel est implicite,très contextuel, ambigu et souvent imprécis. Person Birth Place Structured A. Einstein ULM Unstructured Where was X born? One day, from among his city views of Ulm, Otto chose a water color to send to Albert Einstein as a remembrance of Einstein´s birthplace. Person Organization J. Welch GE X ran this? If leadership is an art then surely Jack Welch has proved himself a master painter during his tenure at GE. © 2011 IBM Corporation 8
  29. 29. Cercle Alumni IBM – 18 octobre 2011Apprentissage Automatique par la “Lecture”Volumes of Text Syntactic Frames Semantic Frames Inventors patent inventions (.8) Officials Submit Resignations (.7) People earn degrees at schools (0.9) Fluid is a liquid (.6) Liquid is a fluid (.5) Vessels Sink (0.7) People sink 8-balls (0.5) (in pool/0.8) IBM Confidential © 2011 IBM Corporation
  30. 30. Cercle Alumni IBM – 18 octobre 2011 La correspondance de mots-clés n’est pas suffisante En Mai 1898 le Portugal a célébré En Mai, Georges est arrivé le 400eme anniversaire de en Inde après avoir célébré l’arrivée de cet explorateur en son anniversaire au Inde. Portugal. Est arrivé A célébré Correspondance A célébré En Mai Correspondance En Mai 1898 400eme Correspondance anniversaire anniversaire“Georges” est la Portugal Correspondance au Portugalréponse évidente par L’arrivéecorrespondance desmots-clés cependant Correspondancel’ordinateur ne doit Inde Indepas accorder unegrande confiance à explorateur Georgescette réponse. © 2011 IBM Corporation 10
  31. 31. Cercle Alumni IBM – 18 octobre 2011 Des éléments plus probables En Mai 1898 le Portugal a célébré Le 27 Mai 1498, Vasco da Gama a le 400eme anniversaire de débarqué à Kappad Beach l’arrivée de cet explorateur en Inde. Recherche élargie Explorer de nombreuses hypothèses A célébré A Peser les réponses débarqué Portugal Différents algorithmes 400eme Raisonnement Mai 1898 27 Mai 1498 anniversaire temporel Date Math Paraphrase L’arrivée statistique Para- phrases Inde Raisonnement Kappad Beach GeoSpatialUn résultat Geo-plus probable KB explorateur Vasco da Gaman’est pastoujours simpleà obtenir Le résultat n’est toujours pas certain à © 2011 IBM Corporation 100%. 11
  32. 32. 11Cercle Alumni IBM – 18 octobre 2011Le moteur d’analyse de Watson est plus qu’un outil de recherche• Une recherche sur le Web retourne une liste de résultats possibles contenant la réponse – Les résultats des moteurs de recherche sont basés sur leur popularité et leur référencement – L’utilisateur doit encore analyser le résultat pour trouver la meilleure réponse• Le moteur d’analyse de Watson comprend la structure et le libellé de la question posée – Il trouve une réponse spécifique – Il classe les réponses en donnant en “degré de confiance” basé sur l’expérience• Watson répond à des questions en “langage naturel” – Qui peut inclure des jeux de mots, de l’argot, du jargon et des acronymes qui doivent être évalués[12] © 2011 IBM Corporation 2011-02-23 12
  33. 33. Cercle Alumni IBM – 18 octobre 2011 DeepQA : La Technologie de Watson Architecture Massivement Parallèle ; Système probabiliste à base de “preuves” Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement .Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus grand “degré de confiance” Modèles appris pour combiner et peser les “preuves” Sources Balance Preuves & Combine Sources Models Models Réponses EvalQuestion Eval. Recherche Models Models Réponses preuve Preuves 100,000’s Scores from Recherche Generation forte many Deep Analysis 1000’s of Models Models primaire Pieces of Evidence Algorithms Réponse 100’s Possible Answers Multiple 100’s Interpretations sources Analyse Evaluation des Classement Décomposition GénérationQuestion & Hypothèses et des Synthèse assemblage des De la Question Hypothèse sujet “preuves” réponses Réponse et degré Génération Hypothèses et évaluation de confiance des réponses Hypothèse ... © 2011 IBM Corporation 13
  34. 34. Cercle Alumni IBM – 18 octobre 2011La Performance humaine comparée à celle des ordinateurs Chaque point represente les performances d’un joueur à Jeopardy Performance des gagnants Performance des grands champions 2007 QA Computer System More Confident Less Confident[14] Financial Services GTO 2011 -Corporation DISTRIBUTE © 2011 IBM DO NOT 2011-04-07 14
  35. 35. Cercle Alumni IBM – 18 octobre 2011DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010 v0.8 11/10 V0.7 04/10 v0.6 10/09 v0.5 05/09 v0.4 12/08 v0.3 08/08 v0.2 05/08 v0.1 12/07 IBM Watson joue dans le domaine des gagnants Baseline 12/06 © 2011 IBM Corporation 15
  36. 36. Cercle Alumni IBM – 18 octobre 2011 L’infrastructure technique de Watson, ou comment gérer plus de 10000 conversations•Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz.Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes.Le système se compose de … Performance et dispositifs– 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs & – Puissance de 80 teraflops par seconde (80 trillion cluster disque système) d’operations/sec)– 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM) – Le processeur P7 est designé pour les charges de traitement– Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU massivement parallèle (comme celles de Watson) cores (32 cores/node) pour un total de 2,880 cores – Le Power 750 comprend des dispositifs de gestion de l’énergie,– Interconnection a 10gigE (réseau ethernet) en faisant le 1er système à 4 processeurs qualifié “ENERGY STAR” Power7 © 2011 IBM Corporation 16
  37. 37. 11Cercle Alumni IBM – 18 octobre 2011 Vers de nouveaux domaines d’application Santé et Sciences de la Vie Diagnostic Assistance “In healthcare, we talk about turning data into knowledge. Evidence-based Collaborative Medicine That’s really what Watson does.” Support Technique: Joe Jasinski help-desk, call centers Program Director, IBM Healthcare and Life Sciences Research Enterprise knowledge management and business intelligence Government citizen services …. © 2011 IBM Corporation 17
  38. 38. 11Cercle Alumni IBM – 18 octobre 2011 DeepQA : Diagnostic en continu Symptômes Traite et synthetise une grande quantité de preuves pour améliorer le diagnostic Diagnosis Models Confidence Antécédents Familiaux PB Renal Histoire du Patient UTI Traitements Diabetes Tests/Résultats Influenza Notes/Hypotheses hypokalemie esophogitis MostConfident Diagnosis: Rhume Most ConfidentDiagnosis: Diabetes Most Confident Diagnosis: UTI Most Confident Diagnosis: Diabetes and Esophogitis Grands Volumes de Textes, publications, Références, DBs etc.en langage naturel © 2011 IBM Corporation 18
  39. 39. When it comes to the future, there are three kinds of people: those who let it happen, those who make it happen, and those who wonder what happened.” John M. Richardson, Jr., American academic and authorClaude Riousset, Executive Architect - Systems & Technology Group
  40. 40. Cercle Alumni IBM – 18 octobre 2011 © 2011 IBM Corporation 20

×