Agence Conseil en stratégie digitale
SEO, CRO, Inbound Marketing, Analytics
Philippe YONNET
Agence Search Foresight – Groupe My Media
13 février 2015
Extraction d’information :
Construisez votre propre
graphe de connaissances
/ PHILIPPE YONNET – DIRECTEUR ASSOCIE SF
L’ORATEUR
Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement
naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte
audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin,
LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-
Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à
Londres et New-York pendant deux ans, en tant que Directeur SEO International
de Vivastreet, puis en tant que Directeur SEO International et Directeur
Merchandising du comparateur de prix Twenga.
• Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les
professionnels du référencement des pays francophones.
 Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a
contribué à plusieurs chapitres du livre « réussir son référencement » chez
Eyrolles
 Il a fondé le principal évènement sur le référencement en France, les SEO
Camp’us
 Il a créé la certification CESEO, qui valide les connaissances des experts
en SEO
 Lancé en janvier 2015
 Directeur : Stéphane Tolleron
 Objectifs :
 Réaliser études et tests
 Développer des outils et briques
logicielles utiles pour nos clients
 Piloter les projets de recherche
 Les sujets d’étude :
 l’extraction d’information
 l’indexation des concepts
 Un doctorant en TAL
Le SF Lab
QU’EST CE QUE C’EST ?
Le « knowledge graph »
/ Un « graphe de connaissances » limité
6
Le knowledge graph de Google
 Annoncé le 16 mai 2012
 S’appuie fortement sur freebase
/ Service lancé par Metaweb
7
Freebase
 La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été
faite le 16 juillet 20101. Le 16 décembre 2014, Google annonce la fermeture de
Freebase pour le 30 juin 2015 et le transfert de son contenu à Wikidata
/ Le principe
8
Le knowledge graph de Google
 Une base d’entités
 Reliée à des « faits » sur ces entités
 Ainsi que les relations sémantiques
entre les entités, et entre les faits et
les entités
/ Définition
9
Les entités nommées
Les entités nommées désignent des « entités »
concrètes, c’est-à-dire des objets qui existent
dans le monde réel : lieux, personnes,
sociétés, dates, numéros de téléphone…
D’une certaine façon, il s’agit d’une
généralisation de tout ce qu’on appelle
« noms propres » dans le langage courant.
La Reconnaissance d‘Entités Nommées (REN
en français, NER en anglais) est une sous-
tâche primordiale dans l'activité d'extraction
d'information dans des documents
Elle consiste à rechercher des objets textuels
(c'est-à-dire un mot, ou un groupe de mots)
catégorisables dans des classes telles que
noms de personnes, noms d'organisations ou
d'entreprises, noms de lieux, quantités,
distances, valeurs, dates, etc.
Source Basistech
/ Exemple
10
Les entités nommées
 Reconnaître les entités avec exactitude n’est pas trivial !
/ Mettez un outil de REN dans votre navigateur
- 11 -
Un outil à tester : Open Calais
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Exemple : couleur, taille, âge, profession,capital
social…
12
Les attributs des entités
 Les attributs sont soit des propriétés,
soit des caractéristiques
 L’attribut est indissociable d’une
valeur
 Trouver la valeur d’un attribut est
déjà un challenge, identifier les
attributs associables à une entité est
un défi encore plus grand
/ Identifier les relations sémantiques permet de créer une
ontologie
13
Les relations
Ces relations relient les entités avec leurs attributs
Mais aussi les entités entre elles
Mais aussi avec des classes (regroupements) d’entités
ou d’attributs
- 14 -
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
Et finalement, avec tout ça on a construit
un graphe de connaissances !
QU’EST CE QUE C’EST ?
L’extraction d’information
Attention au faux ami
 Information Retrieval : recherche d’information.
Souvent traduit en extraction d’information, mais c’est
impropre.
Les moteurs de recherche, dans le cadre de leur
fonctionnement classique, utilisent des techniques
d’Information Retrieval.
 Information extraction : extraction d’information. C’est
notre sujet d’aujourd’hui. En France on utilise
beaucoup aussi le terme « fouille de textes »
Extraction d’information : définition
L'activité qui consiste à remplir automatiquement
une banque de données à partir de textes écrits
en langue naturelle" (T. Poibeau)
/ Les principaux champs de recherche
18
Les différents domaines en IE
 La reconnaissance d’entités nommées (REN)
 Déjà présentée…
 La résolution des co-références (COR)
La résolution des co-références cherche à établir les relations entre une entité nommée et
toutes les désignations utilisées sur le web, comme par exemple : François Hollande, le
président Hollande, le Président de la République, le Président de la République Française…
La COR est indispensable pour améliorer les applications de la NER.
On appelle cette tâche plus vulgairement « normalisation »
 L’extraction d’évènements
Les techniques d’extraction d’évènements visent à reconnaître la mention
d’évènements dans les textes, et à créer une base de données structurée,
comportant un certain nombre d’informations associées à l’évènement comme
le nom de l’évènement, les dates de l’évènement, les protagonistes etc.
 L’extraction de relations
/ Le processus d’analyse étape par étape
19
L’extraction d’évènement
 L’extraction d’évènement est un problème complexe : le challenge fait partie des
premiers défis que les chercheurs se sont lancés
(implémentation typique dans l’outil GATE de l’université de Sheffield)
LES APPROCHES LES PLUS CLASSIQUES
Les méthodes d’extraction
d’information
/ Les « patrons » sémantiques
21
Méthode 1 : L’utilisation de règles
 – règles de type expressions régulières écrites à la main, pour la reconnaissance
des entités nommées en fonction de leur contexte
 – gros usage de listes, dictionnaires...
 – intérêt : lisibilité (jusqu’à un certain point)
 – mais requiert une certaine expertise linguistique
 – problème : grande évolutivité des noms, ambiguïtés...
 – en général : bonne précision, mauvais rappel !
 – exemple (démo) : Unitex
/ Unitex
- 22 -
Démo / Exemple
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/
23
Méthode 2 : L’apprentissage automatique
Apprentissage automatique supervisé
Problème : nécessite au départ un grand nombre d’exemples annotés à la main
Mais cette approche est plus scalable (meilleur rappel, moins bonne précision)
 Apprentissage symbolique
 Apprentissage basé sur une grammaire (bof !)
 Apprentissage d’une classification (utile pour extraire des couples attributs valeurs)
 Approche statistique
 Apprentissage s’appuyant sur des modèles graphiques
/ Règles, données extérieures, + apprentissage
automatique
24
L’approche hybride
 Découverte semi automatique des patrons
 Réutilisation de données existantes
 Apprentissage faiblement supervisé
 OIE : Open Information Extraction
Exemple issu de : https://perso.limsi.fr/xtannier/fr/Enseignement/m2p_tal/M2PRO_EISD_Intro_EI.pdf
Partir d'un patron déjà déterminé :
<company1> acheter <company2>
Trouver des exemples d'entités instanciant ce patron
<company>IBM</company> a acheté <company>Lotus</company>
➢ achat(IBM, Lotus)
– Collection de nouveaux patrons grâce aux connaissances acquises
Lotus a été acquis par IBM
<company2> être acquis <company1>
L'achat de Lotus par IBM
L'achat de <company2> par <company1>
Quelques pistes d’applications pour
vos sites
/ Extraction de caractéristiques
26
Améliorer vos fiches produits
 Exemple : Rakuten
Source 01 net
/ Fonction avancée de comparaison et d’agrégation
- 27 -
Agréger des données
 Source : https://perso.limsi.fr/xtannier/fr/Enseignement/m2r_tal/M2R_TAL_Extraction_Information.pdf
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Qualification et structuration
28
Bases d’annonces emploi et de CV
/ De la donnée à la séquence !
29
Création de nouvelles bases structurées
 Exemple : parser des recettes de cuisine pour identifier les ingrédients, les
quantités, et les process !
 Si, si, c’est possible
/ Les how to !
- 30 -
Application chez Google
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Réponse : des choses très utiles pour le SEO
- 31 -
Que peut-on faire avec données ?
De nouveaux
services pour les
internautes !
De nouvelles pages
de contenus
Un maillage interne
plus intelligent
grâce à des
données plus
structurées
Plus de pertinence,
plus de précision
pour vos moteurs de
recherche interne
Une meilleure
expérience
utilisateur
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
L’aspect juridique
- 32 -
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Ok pour certaines utilisations, problématique pour
d’autres
33
Un cadre juridique complexe
• Droit d’auteur et droits voisins
• Droit des bases de données
• Propriété intellectuelle
• Droit des marques
• Droit « sui generis »
• …
Et demain ?
- 35 -
Search Foresight 2014 © Agence Conseil
en Stratégie Digitale
Vers le « Knowledge Vault » chez Google
 Knowledge Graph = 500 millions d’entités, 3,5 milliards de « faits », 35000 types de
relations différentes
 Knowledge Vault = 100 fois plus ?
/ La note de « véracité », une alternative au pagerank ?
- 36 -
Google et la vérification des faits !
 http://www.newscientist.com/article/
mg22530102.600-google-wants-to-
rank-websites-based-on-facts-not-
links.html#.VPbn0yz6WOn
 Knowledge-Based Trust: Estimating
the Trustworthiness of Web Sources -
Xin Luna Dong, Evgeniy Gabrilovich,
Kevin Murphy, Van Dang Wilko Horn,
Camillo Lugaresi, Shaohua Sun, Wei
Zhang Google Inc.
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
37
L’Open Information Extraction
 Concept popularisé par Oren Etzioni
 Système d’apprentissage
automatique faiblement supervisé
 Capable d’extraire des informations,
sans dépendance au domaine, et
sans rechercher des types de
relation particuliers
 Certaines des technologies
développées par Oren Etzioni ont
été achetées par Google
/ Comprendre la question, identifier la bonne réponse !
- 38 -
Application de l’OIE : Textrunner
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
Application de l’OIE : Revminer
Conclusion
 Indexer des entités, des faits, et des relations devient le
nec plus ultra pour les personnes qui veulent offrir des
services sur le web
 Extraire des informations demande l’utilisation de
techniques avancées, mais le domaine a fait
d’énormes progrès, et beaucoup d’outils sont
accessibles et disponibles
 Plus la demande pour ces techniques progresse, plus
les technologies se développent rapidement
LIENS ET BIBLIO
Pour approfondir le sujet
41
/ Quelques livres
42
Liens et biblio
Extraction automatique d’information de Thierry Poibeau chez
Hermès Lavoisier
Fouille de textes de Fidelia Ibekwe-SanJuan chez Hermès
Lavoisier
/ Les outils
43
Liens et biblio
 Outil d’extraction : Unitex http://www-igm.univ-mlv.fr/~unitex/
 Reconnaissance des entités nommées : http://www.opencalais.com/
 Outil de visualisation de graphes : Gephi http://gephi.github.io/
 OIE – Outil TextRunner : http://openie.cs.washington.edu/
 OIE – Outil Reverb : http://reverb.cs.washington.edu/
44
Merci !
www.search-foresight.com
Spécialiste de
l’accompagnement
stratégique en SEO

Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes

  • 1.
    Agence Conseil enstratégie digitale SEO, CRO, Inbound Marketing, Analytics Philippe YONNET Agence Search Foresight – Groupe My Media 13 février 2015 Extraction d’information : Construisez votre propre graphe de connaissances
  • 2.
    / PHILIPPE YONNET– DIRECTEUR ASSOCIE SF L’ORATEUR Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition- Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones.  Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles  Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us  Il a créé la certification CESEO, qui valide les connaissances des experts en SEO
  • 3.
     Lancé enjanvier 2015  Directeur : Stéphane Tolleron  Objectifs :  Réaliser études et tests  Développer des outils et briques logicielles utiles pour nos clients  Piloter les projets de recherche  Les sujets d’étude :  l’extraction d’information  l’indexation des concepts  Un doctorant en TAL Le SF Lab
  • 5.
    QU’EST CE QUEC’EST ? Le « knowledge graph »
  • 6.
    / Un «graphe de connaissances » limité 6 Le knowledge graph de Google  Annoncé le 16 mai 2012  S’appuie fortement sur freebase
  • 7.
    / Service lancépar Metaweb 7 Freebase  La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été faite le 16 juillet 20101. Le 16 décembre 2014, Google annonce la fermeture de Freebase pour le 30 juin 2015 et le transfert de son contenu à Wikidata
  • 8.
    / Le principe 8 Leknowledge graph de Google  Une base d’entités  Reliée à des « faits » sur ces entités  Ainsi que les relations sémantiques entre les entités, et entre les faits et les entités
  • 9.
    / Définition 9 Les entitésnommées Les entités nommées désignent des « entités » concrètes, c’est-à-dire des objets qui existent dans le monde réel : lieux, personnes, sociétés, dates, numéros de téléphone… D’une certaine façon, il s’agit d’une généralisation de tout ce qu’on appelle « noms propres » dans le langage courant. La Reconnaissance d‘Entités Nommées (REN en français, NER en anglais) est une sous- tâche primordiale dans l'activité d'extraction d'information dans des documents Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. Source Basistech
  • 10.
    / Exemple 10 Les entitésnommées  Reconnaître les entités avec exactitude n’est pas trivial !
  • 11.
    / Mettez unoutil de REN dans votre navigateur - 11 - Un outil à tester : Open Calais Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 12.
    / Exemple :couleur, taille, âge, profession,capital social… 12 Les attributs des entités  Les attributs sont soit des propriétés, soit des caractéristiques  L’attribut est indissociable d’une valeur  Trouver la valeur d’un attribut est déjà un challenge, identifier les attributs associables à une entité est un défi encore plus grand
  • 13.
    / Identifier lesrelations sémantiques permet de créer une ontologie 13 Les relations Ces relations relient les entités avec leurs attributs Mais aussi les entités entre elles Mais aussi avec des classes (regroupements) d’entités ou d’attributs
  • 14.
    - 14 - SearchForesight 2015 © Agence Conseil en Stratégie Digitale Et finalement, avec tout ça on a construit un graphe de connaissances !
  • 15.
    QU’EST CE QUEC’EST ? L’extraction d’information
  • 16.
    Attention au fauxami  Information Retrieval : recherche d’information. Souvent traduit en extraction d’information, mais c’est impropre. Les moteurs de recherche, dans le cadre de leur fonctionnement classique, utilisent des techniques d’Information Retrieval.  Information extraction : extraction d’information. C’est notre sujet d’aujourd’hui. En France on utilise beaucoup aussi le terme « fouille de textes »
  • 17.
    Extraction d’information :définition L'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle" (T. Poibeau)
  • 18.
    / Les principauxchamps de recherche 18 Les différents domaines en IE  La reconnaissance d’entités nommées (REN)  Déjà présentée…  La résolution des co-références (COR) La résolution des co-références cherche à établir les relations entre une entité nommée et toutes les désignations utilisées sur le web, comme par exemple : François Hollande, le président Hollande, le Président de la République, le Président de la République Française… La COR est indispensable pour améliorer les applications de la NER. On appelle cette tâche plus vulgairement « normalisation »  L’extraction d’évènements Les techniques d’extraction d’évènements visent à reconnaître la mention d’évènements dans les textes, et à créer une base de données structurée, comportant un certain nombre d’informations associées à l’évènement comme le nom de l’évènement, les dates de l’évènement, les protagonistes etc.  L’extraction de relations
  • 19.
    / Le processusd’analyse étape par étape 19 L’extraction d’évènement  L’extraction d’évènement est un problème complexe : le challenge fait partie des premiers défis que les chercheurs se sont lancés (implémentation typique dans l’outil GATE de l’université de Sheffield)
  • 20.
    LES APPROCHES LESPLUS CLASSIQUES Les méthodes d’extraction d’information
  • 21.
    / Les «patrons » sémantiques 21 Méthode 1 : L’utilisation de règles  – règles de type expressions régulières écrites à la main, pour la reconnaissance des entités nommées en fonction de leur contexte  – gros usage de listes, dictionnaires...  – intérêt : lisibilité (jusqu’à un certain point)  – mais requiert une certaine expertise linguistique  – problème : grande évolutivité des noms, ambiguïtés...  – en général : bonne précision, mauvais rappel !  – exemple (démo) : Unitex
  • 22.
    / Unitex - 22- Démo / Exemple Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 23.
    / 23 Méthode 2 :L’apprentissage automatique Apprentissage automatique supervisé Problème : nécessite au départ un grand nombre d’exemples annotés à la main Mais cette approche est plus scalable (meilleur rappel, moins bonne précision)  Apprentissage symbolique  Apprentissage basé sur une grammaire (bof !)  Apprentissage d’une classification (utile pour extraire des couples attributs valeurs)  Approche statistique  Apprentissage s’appuyant sur des modèles graphiques
  • 24.
    / Règles, donnéesextérieures, + apprentissage automatique 24 L’approche hybride  Découverte semi automatique des patrons  Réutilisation de données existantes  Apprentissage faiblement supervisé  OIE : Open Information Extraction Exemple issu de : https://perso.limsi.fr/xtannier/fr/Enseignement/m2p_tal/M2PRO_EISD_Intro_EI.pdf Partir d'un patron déjà déterminé : <company1> acheter <company2> Trouver des exemples d'entités instanciant ce patron <company>IBM</company> a acheté <company>Lotus</company> ➢ achat(IBM, Lotus) – Collection de nouveaux patrons grâce aux connaissances acquises Lotus a été acquis par IBM <company2> être acquis <company1> L'achat de Lotus par IBM L'achat de <company2> par <company1>
  • 25.
  • 26.
    / Extraction decaractéristiques 26 Améliorer vos fiches produits  Exemple : Rakuten Source 01 net
  • 27.
    / Fonction avancéede comparaison et d’agrégation - 27 - Agréger des données  Source : https://perso.limsi.fr/xtannier/fr/Enseignement/m2r_tal/M2R_TAL_Extraction_Information.pdf Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 28.
    / Qualification etstructuration 28 Bases d’annonces emploi et de CV
  • 29.
    / De ladonnée à la séquence ! 29 Création de nouvelles bases structurées  Exemple : parser des recettes de cuisine pour identifier les ingrédients, les quantités, et les process !  Si, si, c’est possible
  • 30.
    / Les howto ! - 30 - Application chez Google Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 31.
    / Réponse :des choses très utiles pour le SEO - 31 - Que peut-on faire avec données ? De nouveaux services pour les internautes ! De nouvelles pages de contenus Un maillage interne plus intelligent grâce à des données plus structurées Plus de pertinence, plus de précision pour vos moteurs de recherche interne Une meilleure expérience utilisateur Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 32.
    L’aspect juridique - 32- Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 33.
    / Ok pourcertaines utilisations, problématique pour d’autres 33 Un cadre juridique complexe • Droit d’auteur et droits voisins • Droit des bases de données • Propriété intellectuelle • Droit des marques • Droit « sui generis » • …
  • 34.
  • 35.
    - 35 - SearchForesight 2014 © Agence Conseil en Stratégie Digitale Vers le « Knowledge Vault » chez Google  Knowledge Graph = 500 millions d’entités, 3,5 milliards de « faits », 35000 types de relations différentes  Knowledge Vault = 100 fois plus ?
  • 36.
    / La notede « véracité », une alternative au pagerank ? - 36 - Google et la vérification des faits !  http://www.newscientist.com/article/ mg22530102.600-google-wants-to- rank-websites-based-on-facts-not- links.html#.VPbn0yz6WOn  Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources - Xin Luna Dong, Evgeniy Gabrilovich, Kevin Murphy, Van Dang Wilko Horn, Camillo Lugaresi, Shaohua Sun, Wei Zhang Google Inc. Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 37.
    37 L’Open Information Extraction Concept popularisé par Oren Etzioni  Système d’apprentissage automatique faiblement supervisé  Capable d’extraire des informations, sans dépendance au domaine, et sans rechercher des types de relation particuliers  Certaines des technologies développées par Oren Etzioni ont été achetées par Google
  • 38.
    / Comprendre laquestion, identifier la bonne réponse ! - 38 - Application de l’OIE : Textrunner Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 39.
  • 40.
    Conclusion  Indexer desentités, des faits, et des relations devient le nec plus ultra pour les personnes qui veulent offrir des services sur le web  Extraire des informations demande l’utilisation de techniques avancées, mais le domaine a fait d’énormes progrès, et beaucoup d’outils sont accessibles et disponibles  Plus la demande pour ces techniques progresse, plus les technologies se développent rapidement
  • 41.
    LIENS ET BIBLIO Pourapprofondir le sujet 41
  • 42.
    / Quelques livres 42 Lienset biblio Extraction automatique d’information de Thierry Poibeau chez Hermès Lavoisier Fouille de textes de Fidelia Ibekwe-SanJuan chez Hermès Lavoisier
  • 43.
    / Les outils 43 Lienset biblio  Outil d’extraction : Unitex http://www-igm.univ-mlv.fr/~unitex/  Reconnaissance des entités nommées : http://www.opencalais.com/  Outil de visualisation de graphes : Gephi http://gephi.github.io/  OIE – Outil TextRunner : http://openie.cs.washington.edu/  OIE – Outil Reverb : http://reverb.cs.washington.edu/
  • 44.
  • 45.