Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"

Publié le 2 Décembre 2015

Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"

Tout récemment, une nouvelle émerge de plus en plus en provenance des réseaux de discussion SEO: Google utilise désormais l’apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain".

Comment cela fonctionne-t-il ? Que sait-on à son sujet ?

Les informations qui suivent proviennent de trois sources : premièrement de "Bloomberg" qui a annoncé l’existence de "RankBrain", deuxièmement de Google qui a donné quelques explications au dernier "Search Engine Land", et troisièmement de notre propre connaissance et des meilleures hypothèses sur ce qu’aurait pu mettre en place le moteur de recherche.

Qu’est-ce que RankBrain ?

"RankBrain" est le nom donné par Google à son système d’intelligence artificielle d’apprentissage automatique utilisé dans le processus de recherche, cela a été dévoilé par Bloomberg et également confirmé par Google.

Qu’est-ce que l’apprentissage automatique ?

L’apprentissage automatique est un algorithme qui permet à un ordinateur d’apprendre lui-même, plutôt qu’être enseigné par des humains ou suivant une programmation détaillée.

Qu’est-ce que l’intelligence artificielle ?

L’intelligence artificielle, ou "IA", est un ordinateur qui est censé être aussi intelligent qu’un être humain, au moins au niveau de l’acquisition de la connaissance qui est fait en utilisant les données qu’il a déja à disposition pour trouver de nouvelles connexions entre les données.

L’IA est très populaire dans les romans de science-fiction. Bien sûr, dans la réalité, cette technologie est utilisée pour faire référence à des systèmes informatiques capables d’apprendre et d’établir des connexions.

Comment l’intelligence artificielle diffère de l’apprentissage automatique ? Dans le cas de "RankBrain", les termes Apprentissage Automatique et Intelligence Artificielle paraissent très proches. On peut constater que les deux termes sont utilisés de façon interchangeable, ou aussi remarquer que le terme apprentissage automatique est employé pour décrire le type d'approche de l'intelligence artificielle.

RankBrain est la nouvelle méthode de Google pour classer les résultats de recherches ?

Non. "RankBrain" n’est qu’une partie de l’algorithme de recherche Google global, c’est un programme qui utilise de nombreux outils pour trier les milliards de pages d’internet dans le but de trouver les pages les plus pertinentes pour des requêtes particulières.

Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"

Quel est le nom de l’algorithme de recherche de Google ?

Il l'a appelé "Hummingbird". Pendant de nombreuses années, l’algorithme de recherche de Google global n’avait pas d’appellation officielle. Mais depuis mi-2013, il est connu sous le nom de "Hummingbird".

Comme une voiture qui possède un moteur global, le moteur lui-même peut être constitué de plusieurs parties, tel qu'un filtre à huile, une pompe à carburant, un radiateur et ainsi de suite. De la même façon, Hummingbird englobe plusieurs parties, donc, "RankBrain" est l’un des plus récents.

Nous savons que "RankBrain" fait partie de l'algorithme global de Hummingbird, vu que Bloomberg indique clairement que "RankBrain" ne gère pas toutes les recherches, comme le ferait seulement l’algorithme global.

Hummingbird contient également d'autres parties avec des noms familiers pour ceux qui sont dans le domaine du SEO, tels que:

  • "Panda", "Penguin" et "Payday" conçus pour lutter contre les spams,
  • "Pigeon" conçu pour améliorer les résultats locaux,
  • "Top Heavy" conçu pour rétrograder les pages des annonces lourdes,
  • "Mobile Friendly" conçu pour récompenser les pages optimisées mobiles,
  • "Pirate" conçus pour combattre la violation des droits d'auteur.
  • Et bien d'autres parties...

Je pensais que l'algorithme de Google s'appelle "PageRank" !

PageRank est une partie de l'algorithme Hummingbird global qui travaille d'une manière spécifique pour attribuer une valeur aux pages en se basant sur les liens provenants d'autres pages pointants sur elles.

Le PageRank est spécial, car c’est le premier nom que Google n'a jamais donné à l'une des parties de son algorithme de classement, depuis que le moteur de recherche a commencé en 1998.

Quels sont les signaux que Google utilise pour le classement ?

Pour déterminer comment classer les pages internet, Google utilise des "signaux", par exemple, il va lire les mots sur une page web, donc les mots sont un signal. Les mots en gras sur une page pourraient être un autre signal qui est noté. Les calculs sont comptés dans le but de définir un PageRank, c’est-à-dire une sorte de score. Si la page est dans un environnement mobile, c’est un autre signal qui est utilisé, etc.

Tous ces signaux sont utilisés par les différentes parties de l'algorithme Hummingbird pour, au final, trouver les meilleurs résultats aux requêtes de recherche.

Combien de signaux existe-t-il ?

Google a parlé de façon assez constante, qu’il y a plus de 200 signaux importants et jusqu’à 10 000 variantes secondaires. Plus généralement Google dit juste "centaines" de facteurs, comme il l'a fait dans l'article de Bloomberg.

Si vous voulez un guide plus visuel au classement des signaux, voir ci-dessous le tableau périodique des facteurs de succès pour le SEO (Guide visuel des signaux de classement)

C'est un très bon guide récapitulatif que les moteurs de recherche comme Google utilisent pour classer les pages web.

C'est un très bon guide récapitulatif que les moteurs de recherche comme Google utilisent pour classer les pages web.

RankBrain est il le troisième signal plus important ?

C'est vrai. Google a annoncé que ce nouveau système est devenu le troisième facteur le plus important pour le classement des pages Web. Voici un Extrait de l'article de Bloomberg:

“RankBrain fait partie des centaines de signaux qui entrent dans un algorithme qui détermine quels résultats apparaissent sur une page de résultats de recherche Google et qui sont classés. En quelques mois, après son déploiement, RankBrain est devenu le troisième signal important contribuant au résultat d'une requête de recherche.”

Quels sont les deux premiers signaux ?

Google ne dit pas quels sont les deux premiers signaux. Il est ennuyeux et sans doute un peu trompeur que Google ne dévoile pas les deux premiers. L'article de Bloomberg n’était pas un accident. Google considère le PageRank comme son tunnel d'apprentissage automatique.

Mais pour vraiment évaluer ce tunnel, il est utile de connaître les autres facteurs les plus importants que Google utilise maintenant, ainsi que ceux qui sont défavorisés par rapport au RankBrain. Voilà pourquoi Google devrait expliquer cela.

En passant, les liens restent le signal le plus important, la façon dont Google compte ces liens sont sous forme de votes.

En ce qui concerne le deuxième signal le plus important, nous supposons que ces "Mots", en passant des "Mots" sur une page web vers comment Google interprète les « Mots » recherchés par les gens sur Google.

Que fait RankBrain exactement ?

RankBrain est principalement utilisé comme un moyen pour interpréter les recherches que les gens soumettent pour trouver des pages. Ces pages pourraient ne pas correspondre aux mots exacts recherchés.

Google, n’est t-il pas déjà capable de trouver des pages avec les mots similaires aux requêtes exactes tapées ?

Oui, depuis longtemps Google trouve des pages avec les mots similaires aux requêtes exactes tapées. Par exemple, il y a des années et des années, si vous saisissez quelque chose comme "souliers", Google pourrait ne pas trouver les pages qui correspondaient à "chaussures", parce que techniquement se sont deux mots différents. Google est devenu plus intelligent pour comprendre que "souliers" est une variation de "chaussures", tout comme "fonctionner" peut vouloir dire "exécuter".

Egalement, Google distingue les synonymes intelligemment, de sorte que si vous cherchez "baskets", Google pourrait comprendre que vous voulez dire aussi "chaussures de course." Google a même obtenu une certaine intelligence conceptuelle pour comprendre qu'il y a des pages avec "Apple" la société de technologie et d’autres avec "Apple" le fruit.

Quoi pour le Knowledge Graph ?

En 2012, Google a augmenté encore plus son intelligence avec le Knowledge Graph, en mettant en œuvre les connexions entre les mots. Plus important encore, Google a appris à chercher des "choses sans chaînes de caractères", comme il les a décrites.

Chaine de caractères signifie que c'est une recherche d’une chaîne de lettres, tels que les pages qui correspondent à l'orthographe "Obama." Cela signifie que quand quelqu'un cherche "Obama", Google comprend que peut être ils cherchent le président américain Barack Obama avec des connexions à d'autres personnes, des lieux et des objets.

Le Knowledge Graph est une base de données qui comporte des choses dans le monde et les relations entre elles. C’est la raison pour laquelle quand vous faites une recherche comme "Quand est-ce que la femme d'Obama est née ?" et vous obtenez une réponse à propos de Michele Obama comme ci-dessous, sans jamais utiliser son nom:

Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"

Comment RankBrain aide à affiner les requêtes ?

Les méthodes que Google utilise déjà pour affiner les requêtes en général: il attribue une partie du travail à un être humain pour la réaliser, tout en créant des listes des synonymes ou des choses et réaliser des connexions entre les bases de données. Bien sûr, il y a une certaine automatisation imbriquée, mais surtout, ce travail est basé sur le travail humain.

Le problème est que Google traite trois milliards de recherches par jour. En 2007, Google a déclaré qu'entre 20% à 25% de ces requêtes n'ont jamais été vues auparavant. En 2013, il a déclaré que ce nombre a baissé à 15%, ce qui est encore confirmé par Bloomberg. Mais 15% de trois milliards reste encore un nombre élevé de requêtes qui ne sont jamais entrées par une recherche humaine (450 millions par jour).

Ce qui est compliqué, les requêtes multi-mots, sont également appelées requêtes "longue traine", RankBrain est conçu pour aider à mieux interpréter ces requêtes et les traduire efficacement, ainsi trouver les meilleures pages pour le celui qui cherche.

Tel que déclaré par Google, il peut y avoir des modèles de recherches complexes, pour comprendre comment ils sont semblables. Cet apprentissage, permet à son tour, de mieux comprendre les futures recherches complexes et si elles sont liées à des sujets particuliers. Le plus important, de la déclaration de Google, c'est qu'il peut associer ces groupes de recherches avec des résultats qu'il estime plus appréciées par les chercheurs.

Google n'a pas fourni des exemples de groupes de recherches, il n'a pas donné des détails sur la façon dont RankBrain devine quelles sont les meilleures pages. Mais il est probable que Google traduit une recherche ambiguë en quelque chose plus spécifique, donc, il peut ensuite fournir des meilleures réponses.

Google n'a pas mentionné des groupes de recherches, mais par contre Bloomberg a donné un seul exemple d'une recherche où RankBrain pourrait nous aider. Le voici :

"Quel est le titre du consommateur au plus haut niveau d'une chaîne alimentaire ?"

"Consommateur" est une référence à quelqu'un qui achète quelque chose. Cependant, il est aussi un terme scientifique pour quelque chose qui consomme des aliments. Il existe également des niveaux de consommateurs dans la chaîne alimentaire. Ce consommateur est au plus haut niveau? Le titre - le nom - est "prédateur".

La saisie de cette requête dans Google fournit des bonnes réponses, même si la requête elle-même semble assez étrange:

Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"

Maintenant examinez comment les résultats sont similaires pour une recherche comme "Top niveau de la chaîne alimentaire", tel que indiqué ci-dessous:

Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"

Imaginez que RankBrain met en relation la longue requête compliquée originale à cette requête beaucoup plus courte, ce qui est probablement ce qui est réalisé. Il comprend qu'ils sont très similaires. En conséquence, Google peut tirer parti de tout ce qu'il sait, il regroupe les réponses sur la requête la plus commune pour aider à améliorer ce qu'il prévoit une requête rare.

On ne sait pas si RankBrain a connecté ces deux recherches. On sait seulement que Google a donné le premier exemple. Ceci est simplement une illustration de la façon dont RankBrain connecte une recherche rare à une recherche commune comme un moyen pour améliorer les résultats.

Bing peut faire cela aussi, avec "RankNet" ?

En 2005, Microsoft a commencé l'utilisation de son propre système apprentissage automatique, appelé "RankNet". Mais au fil des années, Microsoft a de la peine à parler de RankNet.

Il est également intéressant de noter que quand on met la recherche ci-dessus dans Bing, comme déjà mentionné, la capacité de Google RankBrain est grande, Bing aussi fournit de bons résultats, y compris la liste que Google a également retourné :

Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"

Une requête ne signifie pas que Bing RankNet est aussi bon que RankBrain de Google ou vice versa. Malheureusement, il est vraiment difficile d'obtenir une liste de connexions pour pouvoir faire ce genre de comparaison.

Y a-t-il un autre exemple ?

Google nous a donné un nouvel exemple: "Combien de cuillères à soupe contient une tasse ?" Google a déclaré que RankBrain favorise l'Australie avec des divers résultats par rapport aux États-Unis pour cette requête parce que les mesures sont différentes pour chaque pays, malgré que les noms soient similaires.

On essayant de tester cette recherche sur Google.com contre Google Australie. On ne voit pas beaucoup de différence. Par contre, avec le RankBrain, les résultats seraient souvent différentes, simplement parce qu'il y a une méthode qui favorise les pages des sites australiens connus pour les chercheurs qui utilisent Google Australie.

Est-ce que RankBrain va vraiment aider ?

Malgré que les deux exemples ci-dessus sont plus ou moins convaincants comme un témoignage sur l'ampleur de RankBrain, nous croyons vraiment qu'il a sans doute un grand impact, comme Google le déclare. La société est assez conservatrice sur ce qui se passe dans son algorithme de classement. Elle fait de petits tests tout le temps. Mais elle ne lance pas de grands changements que quand elle aura un grand niveau de confiance.

Quand est-ce que RankBrain à démarré ?

Google nous a dit qu'il y avait un déploiement progressif de RankBrain au début de 2015 et qu'il est en pleine utilisation mondiale depuis quelques mois maintenant.

Selon Google le RankBrain est le troisième le plus important signal, c'est un énorme changement. Google n'intègre pas le RankBrain sauf s'il croyait que son utilité est évidente.

Quelles sont les requêtes touchées ?

Google a indiqué à Bloomberg que "une très grande partie" des requêtes sont traitées par RankBrain, aucun chiffre précis n'a été donné. De fait, Nous n'avons aucune idée de son impact réel pour le moment.

L'apprentissage de Rankbrain va-t-il continuer ?

Google dit : l'apprentissage RankBrain continue en Offline (hors ligne). Il a regroupé des lots de recherches historiques et il apprend à faire des prédictions à partir de ces recherches.

Ces prédictions sont testées et approuvées, alors la dernière version de RankBrain est en exécution. Le cycle d'apprentissage Offline (hors ligne) est en répétition continue.

RankBrain, que fait-il de plus que le raffinement des requêtes ?

Typiquement, comment une requête est raffinée ? Que ce soit par le biais des flux, synonymes ou par le RankBrain – cela n'est pas considéré comme un facteur ou un signal de classement.

Les signaux sont généralement les facteurs qui sont liés au contenu, comme les mots sur une page, les liens pointants sur une page, si une page est sur un serveur sécurisé et ainsi de suite…. Ils peuvent également être liés à un utilisateur, par exemple, son emplacement, ses recherches ou l'historique de sa navigation.

Alors, Google a déclaré que RankBrain est le troisième signal le plus important, cela signifie-t-il réellement que c'est un signal de classement ? Oui. Google nous a confirmé que le composant "RankBrain" contribue directement en quelque sorte au classement d'une page.

Comment exactement ? Y a-t-il un certain type de "score de RankBrain" qui pourrait évaluer la qualité ? Peut-être, mais il semble beaucoup plus probable que RankBrain aide Google pour mieux classer les pages en se basant sur le contenu. RankBrain est capable de résumer ce qu'est sur une page et ce qui est existant sur les systèmes de Google.

Comment savoir plus sur RankBrain ?

Google propose l'article suivant : http//google-opensource.blogspot.com/2013/08/learning-meaning-behind-words.html

Pour apprendre d'avantage sur les mots "vecteurs" - la façon dont les mots et les phrases peuvent être connectés mathématiquement – l'article parle de la façon dont le système trouve le concept de capitale d'un pays simplement en analysant l'actualité. (Ce système n'a pas été nommé RankBrain dans l'article)

source : http://www.aurone.com/blog-aurone/item/167-tout-sur-le-nouvel-algorithme-de-classement-de-google-rankbrain.html

Google, Hummingbird et l'apprentissage automatique dans son algorithme de recherche, un système d’intelligence artificielle appelée "RankBrain"
Repost 0
Commenter cet article