Robot TALLe traitement automatique du langage est une discipline relativement ancienne qui revient désormais souvent dans les conversations SEO, notamment (not so) white hat.
Si il y a beaucoup à dire sur le sujet, je vais m’attacher ici à en détailler les quelques applications « grand public » dans une optique SEO.

Le traitement du langage est un enjeu de taille depuis les débuts de l’informatique.
Le test de Turing, formulé alors que les ordinateurs tels que nous les connaissons n’était qu’un rêve, en est un bon exemple.
Il est également au coeur des moteurs de recherche modernes, avec plusieurs brevets à la clé (dont le fameux « LSI », latent semantic indexing, de Google).

Un moteur de recherche qui sait interpréter différemment un mot selon le contexte et sa thématique, qui sait analyser la langue d’un texte, sa complexité, son registre de langage, sa pertinence par rapport à la thématique, qui sait différentier du charabia d’une thèse de doctorat (Ok, là il y a du boulot) aurait une longueur d’avance…

Coté référenceurs de toutes les couleurs, les mêmes outils sont bien sur utilisés.
Les outils même des moteurs sont utilisés contre eux (exploitation des suggestions Google pour les expressions longue traine, rétroaction sur les requêtes naturelles, scraping des résultats naturels pour générer du contenu…).

Certains essaient même de « doubler » les moteurs en leur faisant avaler du contenu en apparence unique.
Tout le problème est alors de générer, automatiquement si possible, un texte qui semble naturel tout en étant unique.

Les deux outils les plus souvent utilisés actuellement sont le spinning et les chaines de Markov.
Le spinning consiste à partir d’un texte de base, et à en générer des variations plus ou moins éloignées.
La plupart des utilisateurs n’utilisent souvent qu’une toute petite partie de l’outil, et se contentent de remplacer quelques mots par des synonymes.
La qualité du texte de sortie est alors assez déplorable, et son unicité plus que douteuse.
D’autres vont plus loin, et utilisent des phrases ou des paragraphes alternatifs pour brouiller un peu plus les pistes.
Enfin, il est possible de retraiter le texte de base, le « master spin », pour que les différentes alternatives soient toutes lisibles.

Aucun outil automatique ne sait aujourd’hui créer un texte « master spin » intelligible à partir d’un texte brut.
Il faut en effet pouvoir comprendre le sens de la phrase, pouvoir catégoriser chaque mot de la phrase (couvent est il le nom ou le verbe couver ?), choisir les synonymes les plus adaptés en fonction non seulement du mot, mais aussi du registre de langage, de la construction de la phrase, de la thématique traitée… Bref, c’est le genre de chose qu’un cerveau humain moyen sait faire, et qu’un algorithme a, encore, le plus grand mal à faire.

Coté spinning, ce qui se fait de mieux à l’heure actuelle est en fait des systèmes assistés, basés sur une base de synonymes communautaire, alimentée par des humains.
Des outils comme celui ci (en français) utilisent même des notions plus avancées, comme la distance sémantique, la conjugaison automatique, l’analyse morpho syntaxique. On sort ici des outils « jouets » comme The Best Spinner et on monte d’un cran.
Un autre outil, gratuit, est proposé par Percub : Générateur de spin

La discussion du moment à propos du spin ? : Google est-il capable de le détecter, comment et comment s’en prémunir ?

Et vous, vous utilisez un de ces outils ?
Des questions, des précisions ? allez-y et je détaille !

Dans un article prochain, je vous parle des chaines de Markov.
La théorie mathématique peut être complexe, mais les applications de base au SEO et leurs explications sont à la portée de tous 😉

Photo par S. Lund flickr.com/photos/96khz/

2 commentaires sur “Le traitement automatique du langage (TAL) et ses applications SEO

  1. It’s amazing to me how you have written so much information on this topic. You are knowledgeable in this area and are obviously an accomplished writer. I agree with your views and respect your talent.

  2. Merci merci, n’en jetez plus 😀

    (Ben oui, j’en valide de temps en temps, ça fait toujours plaisir à l’Ego)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


Ce blog est désormais dofollow, mais je sabre allègrement les liens et commentaires sans substance.