Google Hummingbird 
le point de vue d’un linguiste 
Sébastien Monnier 
Ex- Googler, fondateur de Woptimo
Sommaire 
1. Approche syntaxique vs Approche sémantique 
2. Hummingbird : un nouvel oiseau? 
3. Freebase et la notion de c...
Au commencement...
Le web, cette masse informe 
Du texte, des tableaux, des images, des ressources ... 
Décentralisés. 
Comment structurer l’...
Indexation des mots 
“lieu de naissance Jules Verne” = lieu + naissance + Jules + Verne 
Bing en 2014 
Voila en 2014
Et même les résultats peu probables... 
Quelle est la probabilité qu’en cherchant “lieu de naissance Jules Verne”, je 
rec...
Approche sémantique 
Propriété biographique Personnalité 
lieu de naissance Jules Verne
Approche sémantique 
Google en 2014
Google Hummingbird : qu’est-ce 
donc?
Qu’est-ce qu’Hummingbird 
● Annoncé fin septembre 2013 pour le 15e annniversaire 
de Google 
● Déjà présent depuis un mois...
Pourquoi un colibri? 
Précis et rapide 
(... et peut faire marche arrière)
Le web a évolué
La recherche évolue ...
Anticiper les évolutions 
● Boom du trafic mobile, du trafic connecté et géolocalisé 
1 requête = + que des mots 
➔ 1 cont...
Processus de Hummingbird
Moteur: Algorithme général 
● Le moteur de recherche de Google est basé sur des algorithmes 
mathématiques (probabilités) ...
Qu’est-ce qu’un classifier? 
Un classifier est un algorithme de catégorisation 
○ Entrée: requêtes, pages web, domaines......
Moteur: Algorithme général - Schéma 
Requête (“photo de Paris”) 
➢ Analyse lexicale: “photo”:nom... 
➢ Analyse syntaxique:...
Algorithme HummingBird 
Requête (“photo de Paris”) 
➢ Analyse lexicale: “photo”:nom... 
➢ Analyse syntaxique: groupe nomin...
Freebase et la notion de concept
Freebase 
Freebase est une base de données de connaissances structurées libre et contributive. 
● Créée en 2007 
● Racheté...
Notion de Concept 
➢ Objet concret ou abstrait représenté par une séquence de mots 
➢ Concepts interconnectés d’après des ...
Sujet, prédicat, objet 
Liaison de 2 concepts : 
Sujet 
Ressource à décrire 
Objet 
Valeur de la propriété 
Prédicat 
Type...
Sujet, prédicat, objet 
Liaison de 2 concepts : 
Sujet 
Jules Verne 
Objet 
Nantes 
Prédicat 
Lieu de naissance
Sujet, prédicat, objet 
Liaison de 2 concepts : 
Sujet 
FC Nantes 
Objet 
Stade de la Beaujoire 
Prédicat 
Stade
Extraction des concepts
Les données sûres 
Ressources modérées et surveillées 
+ 
Grande fréquence de reprises de la même information 
● Jules Ver...
Extraction des entités 
Indices linguistiques pour repérer la propriété Lieu Naissance 
● SUJET “</p><p>Né à” OBJET 
● SUJ...
Compréhension des données floues 
Comment avoir des informations sur quelqu’un/quelque chose qui n’est pas 
dans une base ...
Knowledge Vault 
Google a repéré et stocké plus d’un milliard de faits hors bases 
sémantiques
Concrètement
Concepts et intention de l’utilisateur 
[Représentation Graphique] --> Paris [ville] 
Interaction directe 
[Evénement] Exp...
Répartition des concepts 
Concepts Résultats 
Photos/Images 
[Représentation graphique] 
Exposition 
[Evénement] 
Studio p...
Termes manquants : 
● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’ 
Hummingbird
Et les 10% non impactés par 
Hummingbird? 
Info présente ici : bravo Google, ... mais 
ouch...
Hummingbird : un complément à l’ 
existant? 
Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’ 
...
Qu’est-ce que cela change pour 
le SEO?
Du mot-clé à l’intention 
Oublions la simple “expression-clé” 
Pensons à l’intention de l’utilisateur
Analysez les SERP 
Au-delà de la position, il faut essayer de comprendre 
● L’INTENTION de la requête interprétée par Goog...
Pensez aux mentions 
“SuperMutuellePro m’a aidé à comparer des mutuelles” 
SUJET 
Entité : Marque 
OBJET 
Entité : Type de...
Adieu contenu SEO... 
● Oubliez les consignes comme : 
Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et m...
Véracité du contenu 
Si vous possédez du contenu vérifiable (date de naissance/décès de célébrité, 
adresses d’entreprise,...
Marquage sémantique 
Utilisation des données structurées / microdonnées devient un standard 
➔ permet aux moteurs une meil...
1 rue Albert Einstein, 
Champs-sur-Marne, 
77447 Marne-la-Vallée Cedex 2 
France 
Tél : +33 (0)1 83 64 24 11 
Fax : +33 (0...
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Prochain SlideShare
Chargement dans…5
×

Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée

2 862 vues

Publié le

Présentation faite à l'occasion du SEO Camp Day à Nantes en novembre 2014 par Sébastien Monnier.

Explications sur Google Knowledge Vault et les méthodes d'extraction d'entités et de relation par Google.

Publié dans : Internet
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 862
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 512
Actions
Partages
0
Téléchargements
22
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée

  1. 1. Google Hummingbird le point de vue d’un linguiste Sébastien Monnier Ex- Googler, fondateur de Woptimo
  2. 2. Sommaire 1. Approche syntaxique vs Approche sémantique 2. Hummingbird : un nouvel oiseau? 3. Freebase et la notion de concept 4. Extractions des concepts 5. Exemples dans les SERP 6. Conséquences sur le SEO
  3. 3. Au commencement...
  4. 4. Le web, cette masse informe Du texte, des tableaux, des images, des ressources ... Décentralisés. Comment structurer l’information pour organiser une recherche?
  5. 5. Indexation des mots “lieu de naissance Jules Verne” = lieu + naissance + Jules + Verne Bing en 2014 Voila en 2014
  6. 6. Et même les résultats peu probables... Quelle est la probabilité qu’en cherchant “lieu de naissance Jules Verne”, je recherche des informations sur La maternité de la clinique Jules Verne...
  7. 7. Approche sémantique Propriété biographique Personnalité lieu de naissance Jules Verne
  8. 8. Approche sémantique Google en 2014
  9. 9. Google Hummingbird : qu’est-ce donc?
  10. 10. Qu’est-ce qu’Hummingbird ● Annoncé fin septembre 2013 pour le 15e annniversaire de Google ● Déjà présent depuis un mois ● Impacte 90% des requêtes ● Aussi important pour l’infrastructure de Google que Google Caffeine
  11. 11. Pourquoi un colibri? Précis et rapide (... et peut faire marche arrière)
  12. 12. Le web a évolué
  13. 13. La recherche évolue ...
  14. 14. Anticiper les évolutions ● Boom du trafic mobile, du trafic connecté et géolocalisé 1 requête = + que des mots ➔ 1 contexte spatial ➔ 1 contexte humain ➔ 1 contexte d’historique de recherche ➔ Google cherche à comprendre l’intention, plus que l’assemblage des mots dans la requête
  15. 15. Processus de Hummingbird
  16. 16. Moteur: Algorithme général ● Le moteur de recherche de Google est basé sur des algorithmes mathématiques (probabilités) ● Le comportement de ces algorithmes est conditionné par de multiples paramètres linguistiques et statistiques ● Ces paramètres sont calculés grâce à une batterie de “classifiers”
  17. 17. Qu’est-ce qu’un classifier? Un classifier est un algorithme de catégorisation ○ Entrée: requêtes, pages web, domaines... ○ Sortie: Nature diverse des informations (texte, score, liste,...) ● Classifier de requête : ○ Ex : requête géolocalisée (bureau Paris), requête navigationelle (Youtube, Facebook...) ● Classifier de pages web : ○ Ex : bourrage de mots-clés, texte caché, “in-depth article”... ● Classifier d’élements sur une page web : ○ Ex : fil d’Ariane, listing d’éléments... ● ... Et de nombreux autres types de classifiers...
  18. 18. Moteur: Algorithme général - Schéma Requête (“photo de Paris”) ➢ Analyse lexicale: “photo”:nom... ➢ Analyse syntaxique: groupe nominal ➢ Typologie, Intention ➢ ... Page Web ➢ PageRank ➢ Typologie, Intention ➢ Potentiel de spam ➢ Auteur de la page ➢ ... Domaine Sous-domaine Auteur ... MOTEUR Résultats Universal Knowledge Graph URL 1 URL 2 URL 3 … URL X
  19. 19. Algorithme HummingBird Requête (“photo de Paris”) ➢ Analyse lexicale: “photo”:nom... ➢ Analyse syntaxique: groupe nominal ➢ Typologie, Intention ➢ Concepts ➢ ... Page Web ➢ PageRank ➢ Typologie, Intention ➢ Potentiel de spam ➢ Auteur de la page ➢ Concepts ➢ ... Domaine Sous Domaine Auteur ... MOTEUR Résultats Universal Knowledge Graph URL 1 URL 2 URL 3 … URL X
  20. 20. Freebase et la notion de concept
  21. 21. Freebase Freebase est une base de données de connaissances structurées libre et contributive. ● Créée en 2007 ● Rachetée par Google en 2010 Tout le monde peut contribuer
  22. 22. Notion de Concept ➢ Objet concret ou abstrait représenté par une séquence de mots ➢ Concepts interconnectés d’après des relations plus ou moins éloignées
  23. 23. Sujet, prédicat, objet Liaison de 2 concepts : Sujet Ressource à décrire Objet Valeur de la propriété Prédicat Type de propriété
  24. 24. Sujet, prédicat, objet Liaison de 2 concepts : Sujet Jules Verne Objet Nantes Prédicat Lieu de naissance
  25. 25. Sujet, prédicat, objet Liaison de 2 concepts : Sujet FC Nantes Objet Stade de la Beaujoire Prédicat Stade
  26. 26. Extraction des concepts
  27. 27. Les données sûres Ressources modérées et surveillées + Grande fréquence de reprises de la même information ● Jules Verne</p><p>Né à Nantes le 08/02/1828 ; Mort à Amiens le 24/03/1905 ● <td>1828</td><td>Jules Verne est né à Nantes le 8 février 1828 </td> ● 1828 - Naissance (8 février) de Jules Verne à Nantes. ● Jules Verne<br>1828 - 1905 Nationalité : française.<BR>(lieu de naissance : Nantes) ● Jules Verne (Nantes, 1828 - Amiens, 1905) ● <tr><td>Ecrivain</td><td>Naissance</td><tr> <tr><td>Jules Verne</td><td>Nantes</td><tr>
  28. 28. Extraction des entités Indices linguistiques pour repérer la propriété Lieu Naissance ● SUJET “</p><p>Né à” OBJET ● SUJET est né à OBET ● 1828 - Naissance (DATE) de SUJET à OBJET ● SUJET<br>DATE - 1905 Nationalité : française.<BR>(lieu de naissance : OBJET) ● SUJET (OBJET, DATE - Amiens, 1905) ● <tr><td>Ecrivain</td><td>Naissance</td><tr> <tr><td>SUJET</td><td>OBJET</td><tr>
  29. 29. Compréhension des données floues Comment avoir des informations sur quelqu’un/quelque chose qui n’est pas dans une base sémantique? ➔ Extraction des données web en s’inspirant des structures linguistiques identifiées Exemple
  30. 30. Knowledge Vault Google a repéré et stocké plus d’un milliard de faits hors bases sémantiques
  31. 31. Concrètement
  32. 32. Concepts et intention de l’utilisateur [Représentation Graphique] --> Paris [ville] Interaction directe [Evénement] Expo photo au Grand Palais Informationnel [Marque] Maison de la photographie Navigationnel
  33. 33. Répartition des concepts Concepts Résultats Photos/Images [Représentation graphique] Exposition [Evénement] Studio photo [Lieu] Stage photo [Enseignement] Location studio [Commerce]
  34. 34. Termes manquants : ● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’ Hummingbird
  35. 35. Et les 10% non impactés par Hummingbird? Info présente ici : bravo Google, ... mais ouch...
  36. 36. Hummingbird : un complément à l’ existant? Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’ ancien algorithme de recherche de co-occurrence rentre en jeu. Quelques indices (?): ➢ Snippet de 4 lignes ➢ Pas le “termes manquants”
  37. 37. Qu’est-ce que cela change pour le SEO?
  38. 38. Du mot-clé à l’intention Oublions la simple “expression-clé” Pensons à l’intention de l’utilisateur
  39. 39. Analysez les SERP Au-delà de la position, il faut essayer de comprendre ● L’INTENTION de la requête interprétée par Google. ● La réponse comprise par Google ● La diversité des résultats ● Google ne classe pas 10 pages web en fonction de leur PageRank. ● Google organise la présentation d’informations permettant de répondre, au mieux, au besoin supposé de l’internaute.
  40. 40. Pensez aux mentions “SuperMutuellePro m’a aidé à comparer des mutuelles” SUJET Entité : Marque OBJET Entité : Type de société PREDICAT Propriété : Comparaison
  41. 41. Adieu contenu SEO... ● Oubliez les consignes comme : Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et mot-clé3 Donnez plutôt : Je veux du contenu pour une page qui va donner cette information avec 2 arguments, 2 exemples et en citant ses sources. ➔ Soyez concis, clair et factuel ➔ Pensez présentation et lisibilité du texte ➔ Pensez mots-clés, champ lexical et synonymes dans un 2e temps
  42. 42. Véracité du contenu Si vous possédez du contenu vérifiable (date de naissance/décès de célébrité, adresses d’entreprise, ...), pensez à les mettre à jour. Google peut extraire votre contenu et les comparer avec sa base de connaissance. Trop de mauvaises informations = MAUVAIS SIGNAL
  43. 43. Marquage sémantique Utilisation des données structurées / microdonnées devient un standard ➔ permet aux moteurs une meilleure compréhension des concepts de votre site ➔ L’absence de données structurées n’entraîne pas de pénalités, mais vous risquez une moins bonne interprétation par Google
  44. 44. 1 rue Albert Einstein, Champs-sur-Marne, 77447 Marne-la-Vallée Cedex 2 France Tél : +33 (0)1 83 64 24 11 Fax : +33 (0)1 83 64 38 15 Twitter : @woptimo www.woptimo.com Merci

×