Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes

Agence Conseil en stratégie digitale
SEO, CRO, Inbound Marketing, Analytics
Philippe YONNET
Agence Search Foresight – Groupe My Media
13 février 2015
Extraction d’information :
Construisez votre propre
graphe de connaissances

/ PHILIPPE YONNET – DIRECTEUR ASSOCIE SF
L’ORATEUR
Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement
naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte
audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin,
LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-
Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à
Londres et New-York pendant deux ans, en tant que Directeur SEO International
de Vivastreet, puis en tant que Directeur SEO International et Directeur
Merchandising du comparateur de prix Twenga.
• Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les
professionnels du référencement des pays francophones.
 Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a
contribué à plusieurs chapitres du livre « réussir son référencement » chez
Eyrolles
 Il a fondé le principal évènement sur le référencement en France, les SEO
Camp’us
 Il a créé la certification CESEO, qui valide les connaissances des experts
en SEO

 Lancé en janvier 2015
 Directeur : Stéphane Tolleron
 Objectifs :
 Réaliser études et tests
 Développer des outils et briques
logicielles utiles pour nos clients
 Piloter les projets de recherche
 Les sujets d’étude :
 l’extraction d’information
 l’indexation des concepts
 Un doctorant en TAL
Le SF Lab

QU’EST CE QUE C’EST ?
Le « knowledge graph »

/ Un « graphe de connaissances » limité
6
Le knowledge graph de Google
 Annoncé le 16 mai 2012
 S’appuie fortement sur freebase

/ Service lancé par Metaweb
7
Freebase
 La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été
faite le 16 juillet 20101. Le 16 décembre 2014, Google annonce la fermeture de
Freebase pour le 30 juin 2015 et le transfert de son contenu à Wikidata

/ Le principe
8
Le knowledge graph de Google
 Une base d’entités
 Reliée à des « faits » sur ces entités
 Ainsi que les relations sémantiques
entre les entités, et entre les faits et
les entités

/ Définition
9
Les entités nommées
Les entités nommées désignent des « entités »
concrètes, c’est-à-dire des objets qui existent
dans le monde réel : lieux, personnes,
sociétés, dates, numéros de téléphone…
D’une certaine façon, il s’agit d’une
généralisation de tout ce qu’on appelle
« noms propres » dans le langage courant.
La Reconnaissance d‘Entités Nommées (REN
en français, NER en anglais) est une sous-
tâche primordiale dans l'activité d'extraction
d'information dans des documents
Elle consiste à rechercher des objets textuels
(c'est-à-dire un mot, ou un groupe de mots)
catégorisables dans des classes telles que
noms de personnes, noms d'organisations ou
d'entreprises, noms de lieux, quantités,
distances, valeurs, dates, etc.
Source Basistech

/ Exemple
10
Les entités nommées
 Reconnaître les entités avec exactitude n’est pas trivial !

/ Mettez un outil de REN dans votre navigateur
- 11 -
Un outil à tester : Open Calais
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale

/ Exemple : couleur, taille, âge, profession,capital
social…
12
Les attributs des entités
 Les attributs sont soit des propriétés,
soit des caractéristiques
 L’attribut est indissociable d’une
valeur
 Trouver la valeur d’un attribut est
déjà un challenge, identifier les
attributs associables à une entité est
un défi encore plus grand

/ Identifier les relations sémantiques permet de créer une
ontologie
13
Les relations
Ces relations relient les entités avec leurs attributs
Mais aussi les entités entre elles
Mais aussi avec des classes (regroupements) d’entités
ou d’attributs

- 14 -
Et finalement, avec tout ça on a construit
un graphe de connaissances !

QU’EST CE QUE C’EST ?
L’extraction d’information

Attention au faux ami
 Information Retrieval : recherche d’information.
Souvent traduit en extraction d’information, mais c’est
impropre.
Les moteurs de recherche, dans le cadre de leur
fonctionnement classique, utilisent des techniques
d’Information Retrieval.
 Information extraction : extraction d’information. C’est
notre sujet d’aujourd’hui. En France on utilise
beaucoup aussi le terme « fouille de textes »

Extraction d’information : définition
L'activité qui consiste à remplir automatiquement
une banque de données à partir de textes écrits
en langue naturelle" (T. Poibeau)

/ Les principaux champs de recherche
18
Les différents domaines en IE
 La reconnaissance d’entités nommées (REN)
 Déjà présentée…
 La résolution des co-références (COR)
La résolution des co-références cherche à établir les relations entre une entité nommée et
toutes les désignations utilisées sur le web, comme par exemple : François Hollande, le
président Hollande, le Président de la République, le Président de la République Française…
La COR est indispensable pour améliorer les applications de la NER.
On appelle cette tâche plus vulgairement « normalisation »
 L’extraction d’évènements
Les techniques d’extraction d’évènements visent à reconnaître la mention
d’évènements dans les textes, et à créer une base de données structurée,
comportant un certain nombre d’informations associées à l’évènement comme
le nom de l’évènement, les dates de l’évènement, les protagonistes etc.
 L’extraction de relations

/ Le processus d’analyse étape par étape
19
L’extraction d’évènement
 L’extraction d’évènement est un problème complexe : le challenge fait partie des
premiers défis que les chercheurs se sont lancés
(implémentation typique dans l’outil GATE de l’université de Sheffield)

LES APPROCHES LES PLUS CLASSIQUES
Les méthodes d’extraction
d’information

/ Les « patrons » sémantiques
21
Méthode 1 : L’utilisation de règles
 – règles de type expressions régulières écrites à la main, pour la reconnaissance
des entités nommées en fonction de leur contexte
 – gros usage de listes, dictionnaires...
 – intérêt : lisibilité (jusqu’à un certain point)
 – mais requiert une certaine expertise linguistique
 – problème : grande évolutivité des noms, ambiguïtés...
 – en général : bonne précision, mauvais rappel !
 – exemple (démo) : Unitex

/ Unitex
- 22 -
Démo / Exemple

/
23
Méthode 2 : L’apprentissage automatique
Apprentissage automatique supervisé
Problème : nécessite au départ un grand nombre d’exemples annotés à la main
Mais cette approche est plus scalable (meilleur rappel, moins bonne précision)
 Apprentissage symbolique
 Apprentissage basé sur une grammaire (bof !)
 Apprentissage d’une classification (utile pour extraire des couples attributs valeurs)
 Approche statistique
 Apprentissage s’appuyant sur des modèles graphiques

/ Règles, données extérieures, + apprentissage
automatique
24
L’approche hybride
 Découverte semi automatique des patrons
 Réutilisation de données existantes
 Apprentissage faiblement supervisé
 OIE : Open Information Extraction
Exemple issu de : https://perso.limsi.fr/xtannier/fr/Enseignement/m2p_tal/M2PRO_EISD_Intro_EI.pdf
Partir d'un patron déjà déterminé :
<company1> acheter <company2>
Trouver des exemples d'entités instanciant ce patron
<company>IBM</company> a acheté <company>Lotus</company>
➢ achat(IBM, Lotus)
– Collection de nouveaux patrons grâce aux connaissances acquises
Lotus a été acquis par IBM
<company2> être acquis <company1>
L'achat de Lotus par IBM
L'achat de <company2> par <company1>

Quelques pistes d’applications pour
vos sites

/ Extraction de caractéristiques
26
Améliorer vos fiches produits
 Exemple : Rakuten
Source 01 net

/ Fonction avancée de comparaison et d’agrégation
- 27 -
Agréger des données
 Source : https://perso.limsi.fr/xtannier/fr/Enseignement/m2r_tal/M2R_TAL_Extraction_Information.pdf

/ Qualification et structuration
28
Bases d’annonces emploi et de CV

/ De la donnée à la séquence !
29
Création de nouvelles bases structurées
 Exemple : parser des recettes de cuisine pour identifier les ingrédients, les
quantités, et les process !
 Si, si, c’est possible

/ Les how to !
- 30 -
Application chez Google

/ Réponse : des choses très utiles pour le SEO
- 31 -
Que peut-on faire avec données ?
De nouveaux
services pour les
internautes !
De nouvelles pages
de contenus
Un maillage interne
plus intelligent
grâce à des
données plus
structurées
Plus de pertinence,
plus de précision
pour vos moteurs de
recherche interne
Une meilleure
expérience
utilisateur

L’aspect juridique
- 32 -

/ Ok pour certaines utilisations, problématique pour
d’autres
33
Un cadre juridique complexe
• Droit d’auteur et droits voisins
• Droit des bases de données
• Propriété intellectuelle
• Droit des marques
• Droit « sui generis »
• …

- 35 -
Search Foresight 2014 © Agence Conseil
en Stratégie Digitale
Vers le « Knowledge Vault » chez Google
 Knowledge Graph = 500 millions d’entités, 3,5 milliards de « faits », 35000 types de
relations différentes
 Knowledge Vault = 100 fois plus ?

/ La note de « véracité », une alternative au pagerank ?
- 36 -
Google et la vérification des faits !
 http://www.newscientist.com/article/
mg22530102.600-google-wants-to-
rank-websites-based-on-facts-not-
links.html#.VPbn0yz6WOn
 Knowledge-Based Trust: Estimating
the Trustworthiness of Web Sources -
Xin Luna Dong, Evgeniy Gabrilovich,
Kevin Murphy, Van Dang Wilko Horn,
Camillo Lugaresi, Shaohua Sun, Wei
Zhang Google Inc.

37
L’Open Information Extraction
 Concept popularisé par Oren Etzioni
 Système d’apprentissage
automatique faiblement supervisé
 Capable d’extraire des informations,
sans dépendance au domaine, et
sans rechercher des types de
relation particuliers
 Certaines des technologies
développées par Oren Etzioni ont
été achetées par Google

/ Comprendre la question, identifier la bonne réponse !
- 38 -
Application de l’OIE : Textrunner

Application de l’OIE : Revminer

Conclusion
 Indexer des entités, des faits, et des relations devient le
nec plus ultra pour les personnes qui veulent offrir des
services sur le web
 Extraire des informations demande l’utilisation de
techniques avancées, mais le domaine a fait
d’énormes progrès, et beaucoup d’outils sont
accessibles et disponibles
 Plus la demande pour ces techniques progresse, plus
les technologies se développent rapidement

LIENS ET BIBLIO
Pour approfondir le sujet
41

/ Quelques livres
42
Liens et biblio
Extraction automatique d’information de Thierry Poibeau chez
Hermès Lavoisier
Fouille de textes de Fidelia Ibekwe-SanJuan chez Hermès
Lavoisier

/ Les outils
43
Liens et biblio
 Outil d’extraction : Unitex http://www-igm.univ-mlv.fr/~unitex/
 Reconnaissance des entités nommées : http://www.opencalais.com/
 Outil de visualisation de graphes : Gephi http://gephi.github.io/
 OIE – Outil TextRunner : http://openie.cs.washington.edu/
 OIE – Outil Reverb : http://reverb.cs.washington.edu/

www.search-foresight.com
Spécialiste de
l’accompagnement
stratégique en SEO

Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes

Contenu connexe

Tendances

En vedette

Similaire à Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes

Plus de Philippe YONNET

Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes