Séminaire audit et sécurité des systèmes d’information
Google
1. Google
Le nom de google vient du googol, terme mathématique équivalent à 10^100.
Il est impossible de trouver des recherches sans résultats car tous les mots renvoient à une page web
où il est cité.
Néanmoins le moteur de recherche google a joué sur la vague des « Chuck Norris Facts » :Les chuck
Norris Facts – sont des blagues sur l’acteur américain Chuck Norris qui sont l’objet d’un même sur
Internet. Elles sont basées sur le fait qu'on attribue au personnage des pouvoirs surhumains qui
défient les lois universelles de la physique, et même la logique, source Wikipedia) en faisant en sorte
que la recherche « findchucknorris » sur google « j’ai de la chance » renvoi à une page humoristique.
2. Explication du fonctionnement de google :
Une première étape consiste à parcourir le web et ainsi mettre à jour une immense base de
données.
Celle-ci contient :
-l'adressede chaque page trouvée
- le contenu de cette page (titre, texte, balises meta, noms des images, textes des images, etc.)
- la liste des liens allant de cette page vers d'autres pages
Cette opération est effectuée par plusieurs milliers de robots qui fonctionnent en permanence sur
plusieurs milliers d'ordinateurs à travers le monde.
Leur mode de fonctionnement est simple : Ils parcourent les pages et lorsqu’une page contient un
lien vers une autre page, le robot, une fois sa lecture terminée, saute à la page liée et continue son
travail.
La deuxième étape est représentée par les index. Les ordinateurs de Google vont indexer toutes
les pages de google (plusieurs milliards) et vont les classer pour les retrouver instantanément
ensuite.
La troisième étape est constituée par le site web. Il existe plus d'une centaine de sites (également
appelés "DataCenter") à travers le monde qui contiennent chacun une copie des index des
milliards de pages indexées. Ainsi, le moteur de recherche est capable de répondre à un nombre
faramineux d’internautes, par le biais des sites secondaires.
Comment Google classe-t-il les pages ?
3. Lors de sa classification, google ne prend en compte que les mots sans balises. Il repère aussi le
contexte et la position du mot pour juger de sa pertinence. : Plus le mot est écrit tôt dans la page,
plus cette dernière sera pertinente pour ce mot. De même, l’italique ou le gras augmente la
pertinence d’un mot.
Il calcule aussi le nombre de lien des pages extérieures vers cette page pour calculer sa popularité.
Google compare le thème général des pages qui comportent les liens avec le thème général des
pages pointées. Lorsque les thèmes sont proches, les pages vont « mettre en commun » leur
popularité.
De plus, google a répertorié les sites honnêtes et calcule lors d’une nouvelle page le nombre de lien
provenant de sites honnêtes et malhonnêtes. Ce système de classement se note TrustRank. Si une
page est référencée par de nombreux site honnêtes, elles sera répertoriée comme honnête
également, et vice-versa.
La GoogleBar (qui est aujourd'hui installée sur des millions de postes à travers le monde) se
comporte comme un espion et renseigne Google sur les sites visités par les internautes, le temps
passé sur chaque site, et, d'une façon générale, sur la façon dont les visiteurs naviguent à travers le
web, ce qui aide le moteur de recherche à savoir quels sont les sites de confiance.
Aujourd’hui google s’est imposé comme le moteur de recherche de référence de par son efficacité,
son aspect ludique et ses nombreuses annexes (image, traduction, maps, livres, tendances, partage
de documents...)
Ci-dessous une évolution de recherche (100 étant le maximum) de 2004 à aujourd’hui (courbe
google.tend)