Article publié le 17 janvier 2020 par Patrick Coscas
BERT, acronyme de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google qui propose d'améliorer de façon significative les algorithmes de traitement automatique de la langue. Diffusé dans un premier temps en open source à la communauté scientifique (2018), puis intégré officiellement à certains services Google pour les entreprises (depuis le 25 octobre 2019), son déploiement a finalement été annoncé. D'abord pour la langue anglaise, et les autres langues par la suite. Le modèle CamemBERT (pré-entrainé sur un corpus de 138Go de texte) est la méthode adaptée à la langue Française.
Selon la firme de Mountain View, le langage BERT est la plus importante des modifications apportées par Google depuis 5 ans. En effet, celui-ci propose de redéfinir les requêtes formulées de façon naturelle. Pour qu'il n'y ait pas de mauvaise interprétation du phénomène, il vous est proposé ici de mieux comprendre BERT et son impact sur le SEO.
BERT améliore la compréhension des requêtes formulées de manière naturelle dans l'objectif de fournir des résultats plus pertinents. Pour Google, l'algorithme permet de mieux saisir les contenus indexés. Ce dernier sera ainsi à même de s'adapter encore mieux qu'avant à la croissance des recherches vocales. De par les habitudes des internautes, dorénavant ces recherches ne se limitent plus aux recherches vocales faites avec des assistants.
BERT appuie Google dans :
- la compréhension de la cohésion textuelle. L'algorithme désambigüise les expressions/phrases (en particulier lorsque les nuances polysémiques modifient le sens contextuel des mots)
- la compréhension des entités auxquelles les pronoms font référence (très utile dans les longs paragraphes avec plusieurs entités)
- la génération automatique de featured nippets ainsi que la recherche vocale/conversationnelle
- la résolution des problèmes d'homonymie
- la détermination des entités nommées auxquelles un texte fait référence
- la prédiction de la phrase suivante
- la réponse à des questions directement dans les SERP.
Outre les tâches Google, BERT excelle également pour :
- les questions réponses
- l'analyse des sentiments
- la classification et l'analyse des sentiments
- l'appariement des phrases et l'inférence du langage naturel
- l'identification (de tweets offensants à titre d'exemple)
- la catégorisation (par le biais des films de prédiction selon l'analyse des sentiments IMDB)
Le traitement du langage naturel (NLP) de BERT se base sur des réseaux de neurones. Le terme « transformers » fait référence ici au principe d'analyse d'UN MOT en relation avec les autres mots de la phrase. L'algorithme BERT propose de comprendre l'intention derrière les requêtes de recherche en tenant compte du contexte complet d'un mot par l'examen des mots qui le précèdent et le suivent. Il devient donc particulièrement utile pour les requêtes formulées du type conversationnelles ainsi que les requêtes où les prépositions « pour » et « à » impactent le sens. Le contexte des mots sur la requête d'un internaute sera donc mieux compréhensible avec BERT.
À titre d'information, les Transformers ont permis une nette amélioration de la traduction automatique, la génération de texte de haute qualité ainsi que la modélisation linguistique.
Google utilise des Cloud TPU (machines dédiées) pour faire tourner ses nouveaux algorithmes de machine learning. C'est au travers des circuits intégrés TPU (Tensor Processing Unit) que lescharges de travail de ces derniers peuvent s'accélérer. La conception des TPU repose sur la vaste expérience de Google et de son leadership en matière de machine learning.
La diffusion en open source du nouvel algorithme BERT a permis l'émergence d'une multitude de variantes dans les domaines du traitement du langage naturel. D'où la dénomination « BERTologie » (BERTology en anglais). Les algos les plus connus :
- RoBERT par Facebook
- MT-DNN par Microsoft
- XLNet et ALBERT par Google et Toyota
- BERT-mtl par IBM
- Google T5 par Google
- DistilBERT, version miniaturisée, légère et rapide de BERT
- FastBERT, version plus rapide de BERT
- CamemBERT, version française développée par l'INRIA (dérivée de RoBERT)
Google BERT a été conçu pour rendre exploitables les avancées obtenues pour une langue (l'anglais dans un premier temps) à d'autres langues. L'exemple le plus concret sera le cas des featured snippets améliorés par Google dans 2 douzaines de pays, des progrès significatifs ont été constatés en Coréen, Portugais et Hindi.
Utiliser BERT en synergie avec le moteur de recherche donne la possibilité aux utilisateurs de faire plus de recherches, qui par conséquent, apporteront plus de trafic vers tous les sites. Ce qui devrait garantir plus de revenus publicitaires aux sites de qualité.
BERT est exclusivement dédié à la « plomberie interne » de Google et de son moteur de recherche. L'algorithme a été conçu pour mieux appréhender et comprendre les questions posées à l'assistant vocal ainsi que les requêtes complexes tapées sur le Web. Le changement apporté par l'update touchera près de 10% des requêtes, ce qui au final, reste relativement peu mais assez pour pouvoir mettre en avant les sites qui misent sur le référencement naturel. Les 90 % des requêtes restantes, les requêtes classiques en l'occurrence ne seront pas impactées.
Le langage BERT cible principalement les expressions longues et « exotiques » (terme utilisé par un Googler). Il intervient dès que la requête ou encore la question contient plus de trois mots. En dessous de ce quota, il y a peu de chances que le nouvel algorithme soit d'un grand secours. Identifier, analyser et comprendre les requêtes complexes figurent donc parmi ses principales fonctions (comme RankBrain le fait si bien).
Les changements pour sites Web seront donc minimes, mais il faudra tout de même continuer à proposer un contenu de meilleure qualité afin de répondre toujours avec pertinence et précision à l'intention de recherche de l'internaute. Au niveau du moteur, la vocation de BERT s'inscrit dans la compréhension de cette intention de recherche.
Optimiser pour BERT n'est pas une possibilité, comme l'avait indiqué Google pour Rank Brain. Mais il faut toutefois tenir compte de ces avancées technologiques. Avec l'algorithme, les contenus superficiels ou imprécis ne seront pas sélectionnés pour figurer en tête des SERP. De même pour les contenus qui ne correspondent pas assez bien à l'intention de recherche de l'internaute. BERT permet à Google de comprendre de mieux en mieux ses utilisateurs, à condition que ces derniers formulent des requêtes précises constituées de nombreux mots (comme celles formulées à l'oral). Il sera dorénavant plus à même de répondre avec précision à cette demande. « Des sites de niche pourraient mieux ressortir sur des questions de niche » souligne le vice-président de Google Core Search, mais à condition d'avoir un contenu vraiment à la hauteur.
Le langage BERT devrait avoir 2 impacts majeurs pour le moteur :
- Les contenus de qualité sont privilégiés lorsqu'ils répondent de façon précise et pertinente aux intentions de recherche de l'utilisateur. La notion d'EAT (Expertise, Authoritativeness, Trustworthiness ou Expertise ; en français Autorité, Confiance-Fiabilité) est centrale. Elle sera au cœur des préoccupations du moteur. Pourraient alors en tirer parti certains sites de niches très pertinents sur des sujets très précis.
- Les requêtes vocales profiteront également de ce nouvel algorithme puisqu'elles sont souvent assez longues et proposent un contexte plus complexe à appréhender que les mots-clés « classiques ». Le vocal étant l'un des axes forts de R&D de Google depuis des années, c'est comme si BERT a été pensé pour optimiser son utilisation.
En bref, BERT favorisera les sites qui travailleront pleinement l'intention de recherche des visiteurs. Il sera donc question d'étudier le SEO en étant 2 fois meilleur que tout ce qui a déjà été publié sur le Web à ce sujet.
Les professionnels du référencement naturel devront s'adapter aux changements apportés par l'algorithme BERT. Comme pour le cas avec le SEO Google, l'objectif sera d'apparaître sur les intentions des recherches de l'internaute en continuant à s'interroger sur celle-ci : est-ce que le contenu répond à la question ? Qu'est-ce qu'il attend au moment de la lecture de l'article.
Il faudra donc être à même de fournir des réponses précises tout en continuant à produire des contenus de qualité. Et c'est particulièrement le cas pour les sujets de niche. Ils pourront très certainement gagner quelques places dans le SERP sur des questions pointues s'ils sont travaillés correctement. En France, il faut s'attendre à des effets similaires.
Evolutions pour le SEO :
Identification des cibles : Le site internet doit être conçu et pensé pour ses utilisateurs, les prospects ainsi que les clients (et non le contraire). La méthods personas restera viable car permettra encore de définir la ou les cibles. La réussite d'un bon référencement Google BERT repose essentiellement sur l'étude de la cible.
Définition des objectifs : À chaque objectif correspond une approche adaptée. Les objectifs en matière d'optimisation pour les moteurs de recherche sont multiples :
- gagner de nouveaux prospects
- l'établissement de l'expertise
- vente des produits ou services
- fidélisation de la clientèle
- engager des influenceurs
- sensibilisation des visiteurs…
Le choix des bons mots-clés : Le choix des mots-clés est une étape cruciale pour le SEO. Ces mots-clés doivent être choisis en phase avec l'intention de recherche de la cible et des objectifs du site. Avec BERT, il sera question de cibler des mots-clés de la longue traîne pour capter un trafic qualifié sur le site internet. Les longues traînes de mots-clés doivent suffisamment correspondre à des requêtes tapées sur le moteur de recherche.
Proposer un contenu de qualité et optimisé SEO : une fois la cible définie et la longue traine de mots-clés choisie, il sera maintenant question de produire un contenu adapté. Pour rappel, seuls les contenus textes de qualité sont récompensés par Google BERT (résultats de recherche pertinents pour chaque requête).
Mesure des résultats obtenus : avec BERT, la notion de Return On Investement (ROI) se mesure sur le long terme (contrairement à Google AdWords où le ROI peut se calculer quotidiennement). Les bénéfices des actions pourront être calculés et être appréciés sur une période de 12 mois.
Les audits de positionnement réguliers sont nécessaires pour pouvoir suivre la progression des pages web dans les résultats de recherche. Il sera possible d'effectuer ce type d'audit mensuellement afin de mesurer l'efficacité de la stratégie de référencement. À noter d'ailleurs qu'il existe des logiciels d'analyse SEO qui permettent de conserver l'historique des positions du site afin d'en mesurer l'efficacité des actions (comme pour le cas avec l'optimisation SEO).
Mise en place des actions correctives : pour mettre en place des actions correctives, il faut la maîtrise et la faculté d'analyse des résultats fournis par des outils statistiques : Google Search Console et Google Analytics. Les actions correctives peuvent prendre plusieurs natures et découler de la conséquence de l'analyse de données collectées, (grâce aux outils statistiques mentionnés plus haut).
Quelques exemples d'actions correctives : renforcement du maillage interne, amélioration du contenu rédactionnel, acquisition de backlinks naturels via le content marketing, ciblage de nouveaux mots-clés, etc.
Google travaille depuis plusieurs années sur le contexte de recherches et de désambigüisation. En concevant BERT, il ne part pas d'une situation vierge. D'ailleurs, comme il s'agit d'une update, il n'est pas question ici de rupture technologique forte. BERT est tout simplement un nouveau pas significatif que Google a franchi en s'investissant dans le domaine du traitement du Langage Naturel (Natural Language Processing ou NLP).
Plus d'un pourront toutefois s'étonner en sachant que BERT n'est pas seulement appliqué aux recherches des internautes. La compréhension des textes identifiés sur le Web en sera également impactée, même si la communication Google est restée légèrement ambigüe sur ce point (comme à son habitude). BERT a son rôle à jouer dans la façon dont les textes seront publiés (en favorisant les contenus sémantisés, des phrases construites du type « sujet-verbe-complément» plutôt que les listes à puces (bullet points) ou encore les tableaux à titre d'exemple). D'où certains impacts sur le l'optimisation pour les moteurs de recherche.