Machine learning, deep learning :
à quand ces innovations dans nos
entreprises ?
Search Day 2015
William Lesguillier – Pro...
2
Antidot – Qui sommes-nous?
● Editeur de logiciels
● Moteurs de recherche| enrichissement des données
● Depuis 1999 | Par...
3
Parmi nos clients
● Production de contenus
● Industrie
● E-Commerce
● Santé
4
Qu’est-ce que le Machine Learning
● Définition : faculté donnée à un
ordinateur d’apprendre un
comportement à partir d’e...
5
Re-re-renaissance de l’IA
● L’Intelligence Artificielle est de retour sur le
devant de la scène
● Deux facteurs principa...
6
L’événement qui change tout
7
L’événement qui change tout
● Puissance de calcul : 100 servers
● Données disponibles : 200 millions de pages
8
L’événement qui change tout
9
ML : illustrations des principes
Dire si un logement se
trouve à New York ou
San Francisco
Altitude des logements
Concep...
10
ML : illustrations des principes
Dire si un logement se
trouve à New York ou
San Francisco
Concept de modèle
d’entraine...
11
Données
d’entrainement
Données de test
ML : illustrations des principes
Dire si une maison se
trouve à New York ou
San ...
12
Qu’est-ce que le Deep Learning ?
● Se base sur les algorithmes de type réseaux de
neurones
● Le système découvre lui-mê...
13
Qu’est-ce que le Deep Learning ?
14
Machine Learning : pour quoi faire ?
● Reconnaissance du texte (y compris manuscrit) et de la voix
● Traduction automat...
15
Le Machine Learning chez Antidot
Enrich Access
Search
Semantic & ComplexMachine Learning
Graph &
Linked Data
16
Classification automatique
17
Classification automatique
18
Extraction d’entités
19
Les avantages du ML pour le text mining
20
Et pour les moteurs de
recherche ?
21
Que s’est-il passé ces 10 dernières dans le
monde du moteur de recherche d’entreprise ?
Notre réponse :
Rien de bien fo...
22
3 types de moteurs de recherche
23
Comment un moteur trouve-t-il ?
● Il recherche dans les documents le ou les
mots-clés renseignés
● Il filtre les docume...
24
Qu’est-ce que la pertinence ?
Mot
Mot
Mot
Mot
Mot
Mot
Mot
Mot
1
Mot
25
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle tf-idf
(Term Frequency-Inverse Document
Frequenc...
26
Pertinence des moteurs spécialisés
27
Pertinence des moteurs Web
● Etape 1 (90s) : algorithmes tf idf
● Etape 2 (2000) : Google invente le Page Rank
● Etape ...
28
Pertinence des moteurs d’entreprise
● tf-idf est toujours implémenté dans tous les
moteurs de recherche d’entreprise vi...
29
● Today with AFS : 0 results
● Tomorrow with Taruqa :
Sneak peak sur nos travaux de recherche
comment configurer le bac...
30
● Today with AFS : filtering only is possible
● Tomorrow with Taruqa : Boost documents by facet values
Sneak peak sur n...
31
Rendez-vous en 2016 !
32
Sources et ressources
● Wikipedia : Histoire de l’intelligence artificielle
● TEDx: Ken Jennings, « Watson, Jeopardy an...
Merci de votre attention
Des questions ?
Prochain SlideShare
Chargement dans…5
×

Machine learning, deep learning et search : à quand ces innovations dans nos entreprises ?

2 846 vues

Publié le

FORCE EST DE CONSTATER QUE DURANT CES 10 DERNIÈRES ANNÉES, IL N'Y A PAS EU D'ÉVOLUTION DANS LE DOMAINE DES MOTEURS DE RECHERCHE POUR LES ENTREPRISES. ET POURTANT LA TOILE BRUISSE DE LA RÉVOLUTION DU MACHINE LEARNING.
Ces nouvelles approches mathématiques révolutionnent le traitement de l'information. Les géants du web s'en sont saisis depuis quelques années déjà et les premiers résultats sont là. Votre recherche Web est plus personnalisée, elle prédit plus qu'elle ne trouve, elle anticipe.
Mais les travailleurs du savoir dans les entreprises classiques n'ont pas encore accès à ces innovations. Ont-ils été oubliés ?
La recherche d'information en entreprise est-elle condamnée à exploiter des technologies du 20ème siècle ?
William Lesguillier, responsable de l'offre Valorisation des Données chez Antidot, revient sur l'intérêt de ces approches de machine learning afin de comprendre à quoi elles servent. A travers divers retours d'expériences, nous illustrerons ce qu'elles apportent dans la recherche d'information.
Nous ouvrirons enfin les portes du laboratoire d'Antidot pour présenter les derniers travaux de recherche sur les algorithmes de pertinence. l

Publié dans : Technologie
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 846
Sur SlideShare
0
Issues des intégrations
0
Intégrations
250
Actions
Partages
0
Téléchargements
42
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Loi de Moore.
    Plus de données grâce au Big Data et aux objets connectés.
  • 2011 : victoire d’IBM Watson sur les deux meilleurs champions de Jeopardy. A plate couture.
    Evénéments précurseurs (source Wikipedia) : le 11 mai 1997, Deep Blue est devenu le premier système informatique de jeu d'échecs à battre le champion du monde en titre, Garry Kasparov134. En 2005, un robot de Stanford a remporté le DARPA Grand Challengeen conduisant de manière autonome pendant 131 milles sur une piste de désert sans avoir fait de reconnaissance préalable135. Deux ans plus tard, une équipe de Carnegie-Mellon remporte le DARPA Urban Challenge, cette fois en navigant en autonome pendant 55 milles dans un environnement urbain tout en respectant les conditions de trafic et le code de la route136. En février 2011, dans un match de démonstration du jeu télévisé Jeopardy!, les deux plus grands champions de Jeopardy!, Brad Rutter et Ken Jennings ont été battus avec une marge confortable par le système de questions-réponses conçu par IBM, au centre de recherche Watson137. https://fr.wikipedia.org/wiki/Histoire_de_l%27intelligence_artificielle
  • Si on y réfléchit à deux fois, 200 millions de pages ce n’est pas grand chose à l’échelle de l’information disponible sur le web.
  • Le système analyse la question et recherche les réponses potentielles en puisant dans un historique des questions/réponses Jeopardy et dans une base documentaire.
    Mais la particularité du système réside dans la façon dont les réponses potentielles trouvées sont choisies. Les ingénieurs d’IBM n’ont pas développé un algorithme décisionnel classique pour parvenir à ce choix, ils ont laissé la machine apprendre quelles sont les bonnes réponses de sorte que nul ne peut définir aujourd’hui quel est l’agencement de paramètres réellement utilisé par Watson lorsqu’il fait ce choix.
  • http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
  • Wired : Google’s Artificial Brain Learns to Find Cat Videos
    http://www.wired.com/2012/06/google-x-neural-network/
  • Issu du site de notre client http://www.rechercheisidore.fr
    Classification automatique de 3,5 millions de documents de recherche en sciences humaines et sociales selon plus de trente disciplines.
  • Issu du site de notre client http://caij.qc.ca
    Classification automatique de 1,5 millions de décisions juridiques (ie jurisprudence) selon plus de 100 domaines de droit.
  • Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction.
  • Meilleure qualité
    Peu d’adhérence à la langue
    Temps de traitement courts, temps de mise en œuvre court, maintenance très peu chronophage.
  • tf_idf : plus un mot recherché est présent dans le document A et moins ce mot est présent dans les autres documents, alors plus A est caractéristique du mot et donc plus le document A doit être mis en tête de liste
  • Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour ordonner les résultats de réponse.
  • Machine learning, deep learning et search : à quand ces innovations dans nos entreprises ?

    1. 1. Machine learning, deep learning : à quand ces innovations dans nos entreprises ? Search Day 2015 William Lesguillier – Product manager offre Valorisation des Données
    2. 2. 2 Antidot – Qui sommes-nous? ● Editeur de logiciels ● Moteurs de recherche| enrichissement des données ● Depuis 1999 | Paris, Lyon, Aix-en-Provence ● 3.5 M€, 45 collaborateurs, +150 clients ● Mission : délivrer à nos clients des solutions hautement configurables et innovantes qui créent de la valeur à partir de leurs données et augmentent leur performance opérationnelle
    3. 3. 3 Parmi nos clients ● Production de contenus ● Industrie ● E-Commerce ● Santé
    4. 4. 4 Qu’est-ce que le Machine Learning ● Définition : faculté donnée à un ordinateur d’apprendre un comportement à partir d’exemples ● Fondement scientifique : l’Intelligence Artificielle (IA)
    5. 5. 5 Re-re-renaissance de l’IA ● L’Intelligence Artificielle est de retour sur le devant de la scène ● Deux facteurs principaux : ● Le développement de la puissance de calcul ● La disponibilités accrues des données !
    6. 6. 6 L’événement qui change tout
    7. 7. 7 L’événement qui change tout ● Puissance de calcul : 100 servers ● Données disponibles : 200 millions de pages
    8. 8. 8 L’événement qui change tout
    9. 9. 9 ML : illustrations des principes Dire si un logement se trouve à New York ou San Francisco Altitude des logements Concept d’attribut Crédit : http://www.r2d3.us
    10. 10. 10 ML : illustrations des principes Dire si un logement se trouve à New York ou San Francisco Concept de modèle d’entrainement
    11. 11. 11 Données d’entrainement Données de test ML : illustrations des principes Dire si une maison se trouve à New York ou San Francisco Concept de surentrainement
    12. 12. 12 Qu’est-ce que le Deep Learning ? ● Se base sur les algorithmes de type réseaux de neurones ● Le système découvre lui-même les attributs et construit le modèle d’entrainement ● Il peut même aller jusqu’à s’affranchir d’une base d’entrainement (pas de documents étiquetés, ie apprentissage non supervisé) ● Avènement grâce à la puissance des GPU (Graphic Computing Units) très adaptés à ce type de calcul
    13. 13. 13 Qu’est-ce que le Deep Learning ?
    14. 14. 14 Machine Learning : pour quoi faire ? ● Reconnaissance du texte (y compris manuscrit) et de la voix ● Traduction automatique ● Text mining ● Aide à la recherche d’information ● Assistants personnels ● Assistance au diagnostic médical ● Smart cities ● Sécurité informatique ● Robotique ● …
    15. 15. 15 Le Machine Learning chez Antidot Enrich Access Search Semantic & ComplexMachine Learning Graph & Linked Data
    16. 16. 16 Classification automatique
    17. 17. 17 Classification automatique
    18. 18. 18 Extraction d’entités
    19. 19. 19 Les avantages du ML pour le text mining
    20. 20. 20 Et pour les moteurs de recherche ?
    21. 21. 21 Que s’est-il passé ces 10 dernières dans le monde du moteur de recherche d’entreprise ? Notre réponse : Rien de bien folichon
    22. 22. 22 3 types de moteurs de recherche
    23. 23. 23 Comment un moteur trouve-t-il ? ● Il recherche dans les documents le ou les mots-clés renseignés ● Il filtre les documents trouvés avec les critères fournis (format de document, fourchette de prix…) ● Et enfin, le plus important : il ordonne les document dans l’ordre jugé le plus pertinent
    24. 24. 24 Qu’est-ce que la pertinence ? Mot Mot Mot Mot Mot Mot Mot Mot 1 Mot
    25. 25. 25 Qu’est-ce que la pertinence ? ● Cette méthode de pondération s’appelle tf-idf (Term Frequency-Inverse Document Frequency) ● Elle a été inventée par Gerry Salton, appelé le père de la recherche d’information, en 1970
    26. 26. 26 Pertinence des moteurs spécialisés
    27. 27. 27 Pertinence des moteurs Web ● Etape 1 (90s) : algorithmes tf idf ● Etape 2 (2000) : Google invente le Page Rank ● Etape 3 (2005) : explosion du nombre de paramètres de pondération ● Etape 4 (2010) : utilisation du ML pour trouver la meilleure pertinence en fonction de tous et de chacun
    28. 28. 28 Pertinence des moteurs d’entreprise ● tf-idf est toujours implémenté dans tous les moteurs de recherche d’entreprise via les algorithmes appelés Best Match ou Vector Space Model ● L’état de l’art de ces moteurs à 45 ans !!
    29. 29. 29 ● Today with AFS : 0 results ● Tomorrow with Taruqa : Sneak peak sur nos travaux de recherche comment configurer le back office Antidot d’AFS Rechercher
    30. 30. 30 ● Today with AFS : filtering only is possible ● Tomorrow with Taruqa : Boost documents by facet values Sneak peak sur nos travaux de recherche configuration back office Rechercher
    31. 31. 31 Rendez-vous en 2016 !
    32. 32. 32 Sources et ressources ● Wikipedia : Histoire de l’intelligence artificielle ● TEDx: Ken Jennings, « Watson, Jeopardy and me, the obsolete know-it-all » ● TechRepublic : IBM Watson: The inside story of how the Jeopardy-winning supercomputer was born, and what it wants to do next ● A visual introduction to machine learning ● Wired : Google’s Artificial Brain Learns to Find Cat Videos ● IBM : machine learning applications ● Wikipedia : TF-IDF ● Wikipedia : BM25 ● Le Monde : série d’articles de Morgane Tual sur l’intelligence artificielle
    33. 33. Merci de votre attention Des questions ?

    ×