Google Hummingbird
le point de vue d’un linguiste
Sébastien Monnier
Ex- Googler, fondateur de Woptimo
Anthony Sigogne
Doct...
Savez-vous faire la différence?
Google non
Sur Google Images, grâce au test de baume-
referencement, c’est Adriana Karembeu qui aparaît.
Mais Google peut-...
Google sait identifier des concepts
Sur Google Plus Photos, Google arrive bien à identifier des concepts à partir de photo...
Sommaire
1. Quelques notions de linguistique
2. Hummingbird : un nouvel oiseau?
3. Hummingbird : le process
4. Conséquence...
Quelques notions de linguistique
Notions linguistiques
Niveau d’analyse Ex: Le Président de la République Définition
Lexical 5 mots comment les mots sont p...
Notions appliquées à Google
Lexical
Syntaxique
Sémantique
Pragmatique
Google Hummingbird : qu’est-ce
donc?
Qu’est-ce qu’Hummingbird
● Annoncé fin septembre 2013 pour le 15e annniversaire
de Google
● Déjà présent depuis un mois
● ...
Pourquoi un colibri?
Précis et rapide
(... et peut faire marche arrière)
La recherche évolue ...
La recherche par reconnaissance vocale est de plus en plus utilisée.
Anticiper les évolutions
● Boom du trafic mobile, du trafic connecté et géolocalisé
1 requête = + que des mots
➔ 1 context...
Processus de Hummingbird
Moteur: Algorithme général
● Le moteur de recherche de Google est basé sur des algorithmes
mathématiques (probabilités)
● ...
Qu’est-ce qu’un classifier?
Un classifier est un algorithme de catégorisation
○ Entrée: requêtes, pages web, domaines...
○...
Moteur: Algorithme général - Schéma
Requête (“photo de Paris”)
➢ Analyse lexicale: “photo”:nom...
➢ Analyse syntaxique: gr...
Brevet Google
● Soumis le 1er juin 2012: Search query results based upon topic
➢ Requêtes orientées contenu audio/video
➢ ...
Algorithme HummingBird
Requête (“photo de Paris”)
➢ Analyse lexicale: “photo”:nom...
➢ Analyse syntaxique: groupe nominal
...
Notion de Concept
➢ Objet concret ou abstrait représenté par une séquence de mots
➢ Concepts interconnectés d’après des re...
Concepts de “photo de Paris”
Photo de
Paris
Représentation
graphique
Image
Photographies
Photographies
panoramiques
Lieu
S...
Processus : Traitement de la requête
Prétraitement de la Requête
● Généralisation des requêtes
➢ Modification de la requête initiale
➢ Regrouper des requêtes s...
Suppression marques morphologiques
● Caractéristiques des mots “peu utiles”
➢ Genre (masculin/féminin)
➢ Nombre (singulier...
Remplacement par des synonymes
● synonymes des mots-clés
➢ photo: cliché, diapositive, image, photographie
➢ synonymes en ...
Extraction des concepts
● Attribution de concepts aux mots clés
➢ Determining a meaning of a knowledge item
using document...
Concepts de “photo de Paris”
Photo de
Paris
Représentation
graphique
Image
Photographies
Photographies
panoramiques
Lieu
S...
Calcul d’un ensemble de pages
➢ Le moteur attribue des concepts à chaque page
indexée
➢ Ensemble = Pages ayant des concept...
Tri des pages
● Combinaison des probabilités des concepts associés
○ à la requête
○ à la page
● Affichage des pages dans l...
Concepts et intention de l’utilisateur
[Représentation Graphique] --> Paris [ville]
[Marque] Maison de la photographie
[Ev...
Répartition des concepts
Photos/Images
[Représentation graphique]
Exposition
[Evénement]
Studio photo
[Lieu]
Stage photo
[...
Quelques exemples
70 à 90% des images sont identiques entre les deux requêtes : Google a la même
compréhension pour ces pages
Termes manquants :
● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’
Hummingbird
Et les 10% non impactés par
Hummingbird?
Info présente ici : bravo Google, ... mais
ouch...
Hummingbird : un complément à l’
existant?
Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’
anc...
Qu’est-ce que cela change pour
le SEO?
Adieu contenu SEO...
● Oubliez les consignes comme :
Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et mot...
Contenu Avant - Après
Les premiers tapis datent du Ve
siècle avant J-C. Mais,
désormais, on peut acheter des
tapis en lign...
Véracité du contenu
Si vous possédez du contenu vérifiable (date de naissance/décès de célébrité,
adresses d’entreprise, ....
Pensez à aider l’utilisateur
● Il recherche un numéro de téléphone... donnez lui un vrai numéro !!!
Analysez les SERP
Au-delà de la position, il faut essayer de comprendre
● L’INTENTION de la requête interprétée par Google...
Marquage sémantique
Utilisation des données structurées / microdonnées devient un standard
➔ permet aux moteurs une meille...
1 rue Albert Einstein,
Champs-sur-Marne,
77447 Marne-la-Vallée Cedex 2
France
Tél : +33 (0)1 83 64 24 11
Fax : +33 (0)1 83...
Prochain SlideShare
Chargement dans…5
×

Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014

7 531 vues

Publié le

Google Hummingbird est un nouvel algorithme de Google sorti en septembre 2013.
Ce nouveau système révolutionne la manière dont Google interprète les requêtes et les pages web. Dans cette présentation, nous expliquons ces concepts, en liaison avec la linguistique. Nous analysons, ainsi, les changements que cela implique pour le SEO.

Présentation réalisée par Sébastien Monnier et Anthony Sigogne, Woptimo, au SEO campus à Paris le 13 mars 2014.

Publié dans : Marketing

Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014

  1. 1. Google Hummingbird le point de vue d’un linguiste Sébastien Monnier Ex- Googler, fondateur de Woptimo Anthony Sigogne Docteur en informatique linguistique, responsable R&D chez Woptimo
  2. 2. Savez-vous faire la différence?
  3. 3. Google non Sur Google Images, grâce au test de baume- referencement, c’est Adriana Karembeu qui aparaît. Mais Google peut-il reconnaître une pizza? ... Sans doute que oui.
  4. 4. Google sait identifier des concepts Sur Google Plus Photos, Google arrive bien à identifier des concepts à partir de photographies. Essayez ainsi de rechercher “chiens” sur ce service, Google identifiera ainsi des photos comme... mais aussi... (encore quelques progrès à faire)
  5. 5. Sommaire 1. Quelques notions de linguistique 2. Hummingbird : un nouvel oiseau? 3. Hummingbird : le process 4. Conséquences sur le SEO
  6. 6. Quelques notions de linguistique
  7. 7. Notions linguistiques Niveau d’analyse Ex: Le Président de la République Définition Lexical 5 mots comment les mots sont placés les uns à côté des autres Syntaxique 1 groupe nominal composé d’une tête (Président) et d’une extension comment les mots sont organisés les uns par rapport aux autres Sémantique Entité : être humain Domaine : politique comment l’organisation des mots permet d’extraire des relations Pragmatique En 2014, en France, François Hollande comment la vie réelle peut aider à la signification
  8. 8. Notions appliquées à Google Lexical Syntaxique Sémantique Pragmatique
  9. 9. Google Hummingbird : qu’est-ce donc?
  10. 10. Qu’est-ce qu’Hummingbird ● Annoncé fin septembre 2013 pour le 15e annniversaire de Google ● Déjà présent depuis un mois ● Impacte 90% des requêtes ● Aussi important pour l’infrastructure de Google que Google Caffeine
  11. 11. Pourquoi un colibri? Précis et rapide (... et peut faire marche arrière)
  12. 12. La recherche évolue ... La recherche par reconnaissance vocale est de plus en plus utilisée.
  13. 13. Anticiper les évolutions ● Boom du trafic mobile, du trafic connecté et géolocalisé 1 requête = + que des mots ➔ 1 contexte spatial ➔ 1 contexte humain ➔ 1 contexte d’historique de recherche ➔ Google cherche à comprendre l’intention, plus que l’assemblage des mots dans la requête
  14. 14. Processus de Hummingbird
  15. 15. Moteur: Algorithme général ● Le moteur de recherche de Google est basé sur des algorithmes mathématiques (probabilités) ● Le comportement de ces algorithmes est conditionné par de multiples paramètres linguistiques et statistiques ● Ces paramètres sont calculés grâce à une batterie de “classifiers”
  16. 16. Qu’est-ce qu’un classifier? Un classifier est un algorithme de catégorisation ○ Entrée: requêtes, pages web, domaines... ○ Sortie: Nature diverse des informations (texte, score, liste,...) ● Classifier de requête : ○ Ex : requête géolocalisée (bureau Paris), requête navigationelle (Youtube, Facebook...) ● Classifier de pages web : ○ Ex : bourrage de mots-clés, texte caché, “in-depth article”... ● Classifier d’élements sur une page web : ○ Ex : fil d’Ariane, listing d’éléments... ● ... Et de nombreux autres types de classifiers...
  17. 17. Moteur: Algorithme général - Schéma Requête (“photo de Paris”) ➢ Analyse lexicale: “photo”:nom... ➢ Analyse syntaxique: groupe nominal ➢ Typologie, Intention ➢ ... Page Web ➢ PageRank ➢ Typologie, Intention ➢ Potentiel de spam ➢ Auteur de la page ➢ ... Domaine Sous-domaine Auteur ... MOTEUR Résultats Universal Knowledge Graph URL 1 URL 2 URL 3 … URL X
  18. 18. Brevet Google ● Soumis le 1er juin 2012: Search query results based upon topic ➢ Requêtes orientées contenu audio/video ➢ Semble valable pour les requêtes communes ● Modification en profondeur des algorithmes mathématiques ➢ Nouveaux classifiers liés à la semantique ➢ Introduction de la notion de “concept”
  19. 19. Algorithme HummingBird Requête (“photo de Paris”) ➢ Analyse lexicale: “photo”:nom... ➢ Analyse syntaxique: groupe nominal ➢ Typologie, Intention ➢ Concepts ➢ ... Page Web ➢ PageRank ➢ Typologie, Intention ➢ Potentiel de spam ➢ Auteur de la page ➢ Concepts ➢ ... Domaine Sous Domaine Auteur ... MOTEUR Résultats Universal Knowledge Graph URL 1 URL 2 URL 3 … URL X
  20. 20. Notion de Concept ➢ Objet concret ou abstrait représenté par une séquence de mots ➢ Concepts interconnectés d’après des relations plus ou moins éloignées
  21. 21. Concepts de “photo de Paris” Photo de Paris Représentation graphique Image Photographies Photographies panoramiques Lieu Studio Photo Marque Maison Européenne de la photo Evénement Exposition
  22. 22. Processus : Traitement de la requête
  23. 23. Prétraitement de la Requête ● Généralisation des requêtes ➢ Modification de la requête initiale ➢ Regrouper des requêtes similaires ➢ Traitement relativement identique ● Deux prétraitements ➢ Suppression des marques morphologiques ➢ Remplacement par des synonymes
  24. 24. Suppression marques morphologiques ● Caractéristiques des mots “peu utiles” ➢ Genre (masculin/féminin) ➢ Nombre (singulier/pluriel)
  25. 25. Remplacement par des synonymes ● synonymes des mots-clés ➢ photo: cliché, diapositive, image, photographie ➢ synonymes en gras dans les snippets
  26. 26. Extraction des concepts ● Attribution de concepts aux mots clés ➢ Determining a meaning of a knowledge item using document based information ➢ Brevet en avril 2011 ● Différentes sources ➢ Bases de données (Wikipedia/Freebase) ➢ Pages indexées ➢ Règles/Grammaires manuelles ➢ … ● Force du lien entre un concept et un mot clé ➢ Probabilité
  27. 27. Concepts de “photo de Paris” Photo de Paris Représentation graphique Image Photographies Photographies panoramiques Lieu Studio Photo Marque Maison Européenne de la photo Evénement Exposition
  28. 28. Calcul d’un ensemble de pages ➢ Le moteur attribue des concepts à chaque page indexée ➢ Ensemble = Pages ayant des concepts en commun avec la requête Requête C1 C2 C3 C4 Page Web C1 C2 C8 C9 C1, C2 Page ajoutée à l’ensemble
  29. 29. Tri des pages ● Combinaison des probabilités des concepts associés ○ à la requête ○ à la page ● Affichage des pages dans l’ordre décroissant des probabilités
  30. 30. Concepts et intention de l’utilisateur [Représentation Graphique] --> Paris [ville] [Marque] Maison de la photographie [Evénement] Expo photo au Grand Palais Interaction directe Informationnel Navigationnel
  31. 31. Répartition des concepts Photos/Images [Représentation graphique] Exposition [Evénement] Studio photo [Lieu] Stage photo [Enseignement] Location studio [Commerce] Concepts Résultats
  32. 32. Quelques exemples
  33. 33. 70 à 90% des images sont identiques entre les deux requêtes : Google a la même compréhension pour ces pages
  34. 34. Termes manquants : ● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’ Hummingbird
  35. 35. Et les 10% non impactés par Hummingbird? Info présente ici : bravo Google, ... mais ouch...
  36. 36. Hummingbird : un complément à l’ existant? Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’ ancien algorithme de recherche de co-occurrence rentre en jeu. Quelques indices (?): ➢ Snippet de 4 lignes ➢ Pas le “termes manquants”
  37. 37. Qu’est-ce que cela change pour le SEO?
  38. 38. Adieu contenu SEO... ● Oubliez les consignes comme : Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et mot-clé3 Donnez plutôt : Je veux du contenu pour une page qui va donner cette information avec 2 arguments, 2 exemples et en citant ses sources. ➔ Soyez concis, clair et factuel ➔ Pensez présentation et lisibilité du texte ➔ Pensez mots-clés, champ lexical et synonymes dans un 2e temps
  39. 39. Contenu Avant - Après Les premiers tapis datent du Ve siècle avant J-C. Mais, désormais, on peut acheter des tapis en ligne, voire même des tapis pas chers. Découvrez notre sélection exceptionnelle de tapis pas chers de toutes les couleurs. Avec les tapis pas chers MegaTapis, vous avez la garantie du service au meilleur prix. Que ce soit pour votre chambre à coucher, votre salle à manger, le tapis qu’il vous faut est sans doute sur MegaTapis. MegaTapis a un grand choix de tapis. Nous vous conseillons notamment : Tapis persans Nos tapis persans sont garantis faits main. Les premiers prix sont à partir de 400€. Nous conseillons l’ utilisation de ces tapis pour protéger du froid et de l’humidité. Ainsi, vous pouvez les placer dans l’entrée, la salle à manger ou la chambre à coucher.
  40. 40. Véracité du contenu Si vous possédez du contenu vérifiable (date de naissance/décès de célébrité, adresses d’entreprise, ...), pensez à les mettre à jour. Google peut extraire votre contenu et les comparer avec sa base de connaissance. Trop de mauvaises informations = MAUVAIS SIGNAL
  41. 41. Pensez à aider l’utilisateur ● Il recherche un numéro de téléphone... donnez lui un vrai numéro !!!
  42. 42. Analysez les SERP Au-delà de la position, il faut essayer de comprendre ● L’INTENTION de la requête interprétée par Google. ● La réponse comprise par Google ● La diversité des résultats ● Google ne classe pas 10 pages web en fonction de leur PageRank. ● Google organise la présentation d’informations permettant de répondre, au mieux, au besoin supposé de l’internaute.
  43. 43. Marquage sémantique Utilisation des données structurées / microdonnées devient un standard ➔ permet aux moteurs une meilleure compréhension des concepts de votre site ➔ L’absence de données structurées n’entraîne pas de pénalités, mais vous risquez une moins bonne interprétation par Google
  44. 44. 1 rue Albert Einstein, Champs-sur-Marne, 77447 Marne-la-Vallée Cedex 2 France Tél : +33 (0)1 83 64 24 11 Fax : +33 (0)1 83 64 38 15 Twitter : @woptimo www.woptimo.com Merci Besoin d’une prestation en ● SEO ● AdWords ● Link marketing ● Digital Analytics Contactez-nous contact@woptimo.com

×