Cet article m’a été inspiré par Laurent Bourrelly[1], qui rappelle souvent – à raison – que corrélation n’est pas causalité.
« Tous les prix Nobel mangent du chocolat. Ce n’est pas en mangeant du chocolat qu’on devient prix Nobel »
Je vais ici creuser un peu un sujet qui est à mi chemin entre corrélation et causalité, celui des probabilités conditionnelles.
Pas de panique pour les allergiques aux maths, ça va rester – j’espère – simple.
Mes excuses anticipées aux vrais matheux qui ne manqueront pas de relever des inexactitudes dans mes propos.
(n’hésitez pas à corriger si besoin!)
Corrélation Vs probabilités conditionnelles
L’exemple du Chocolat Nobel est une illustration des probabilités conditionnelles.
Une corrélation entre deux évènements signifie que l’un et l’autre évoluent de concert, sans aucune indication de causalité.
On peut renverser les deux évènements, la corrélation reste la même.
Dans le cas du chocolat, on pourrait exprimer le problème sous la forme suivante :
- La probabilité qu’un prix Nobel mange du chocolat est de 99.2%.
- Quelle est la probabilité qu’un mangeur de chocolat soit prix Nobel ?
C’est un problème qui a été étudié par Bayes, et qui a donné naissance à un Théorème[2] qui permet de calculer cette probabilité.
Quand on a deux évènements, A (ex:probabilité de manger du chocolat) et B (ex:probabilité d’être prix Nobel), ce théorème donne la probabilité de B sachant A, en fonction de la probabilité de A sachant B (ou inversement)
C’est un théorème très utile dans de nombreux domaines, car il permet justement de « renverser » la causalité, et d' »inférer » des résultats statistiques en fonctions de données terrain.
C’est ce théorème qui filtre les spams des bons mails, qui donne le taux d’erreur des tests du sida, qui permet d’affiner rapidement des diagnostics d’empoisonnement, ou encore, pour les SEOs, la probabilité qu’un site qui utilise un mot clé commercial dans un H1 soit un site spammy.
L’énoncé de ce théorème est très simple, et sa logique est compréhensible de manière intuitive :
Si on note P(A) la probabilité de A , P(A|B) la probabilité de A sachant B, alors :
P(B|A) = P(A|B)xP(B)/P(A)
Qu’est ce que ça veut dire ?
Si les probabilités des deux évènements A et B sont proches, alors P(A|B) est quasiment égale à P(B|A)
A= les animaux qui volent
B= les animaux qui ont des ailes
P(B/A) = 100% (tous les animaux qui volent ont des ailes)
P(A/B) = 95% (il y a quelques animaux qui ont des ailes mais ne volent pas).
Dans le cas du prix Nobel, on a une probabilité qui est importante (celle de manger du chocolat) et une autre qui est très faible (celle d’être Nobel).
On peut donc avoir P(A|B) proche de 100%, mais quand on va multiplier par la probabilité d’être Nobel (faible) et diviser par la probabilité de manger du chocolat (élevée), on va obtenir P(B|A) très faible.
Ici, on a donc calculé – sans faire appel à un quelconque raisonnement logique, juste en connaissant le pourcentage de mangeurs de chocolat et celui de prix Nobel – , la probabilité d’être prix Nobel pour un mangeur de chocolat.
Les études SEO vides de sens
Si l’étude webspam[3] de Sylvain Peyronnet est bâtie sur des bases statistiques solides, ce n’est pas le cas de toutes les études…
Nombre d’études SEO se contentent de mettre en évidence des demi corrélations.
C’est à dire même pas des corrélations, mais des probabilités de A sachant B, alors que l’information significative serait l’inverse :
P(B|A)…
80% des sites dans le top 10 (B) ont le mot clé dans le title (A).
80% est P(A|B) : la probabilité qu’un site *dans le top 10* ai le mot clé dans son titre.
Tel quel, ça ne dit absolument RIEN, ça ne donne aucune information, ce n’est même pas une corrélation.
C’est une probabilité conditionnelle.
Ce qu’on voudrait savoir, c’est la probabilité d’être dans le top 10 (B) si on a le kw dans le title (A), donc P(B|A).
Pour une requête donnée, P(B) est calculable… c’est 10 / nombre de résultats de la requête…
P(A)= nombre de sites qui ont le kw dans le title / nombre total de sites.
En appliquant le théorème de Bayes, on peut alors calculer P(B|A).
A vos calculettes/feuilles excel/Google doc…
Déjà moins facile à calculer, et moins sexy, non ?
Même si on donne ces chiffres (ce que « personne » ne fait), on voit aussi venir des problèmes :
- La probabilité dépend de chaque requête.
- La probabilité de B n’est pas précise du tout, elle ne peut avoir que 11 valeurs possibles.
Si on fait l’analyse sur le top 3, c’est encore pire: pour une propriété donnée, on aura 0,1, 2 ou 3 sites qui ont la propriété.
0%, 33.3%, 66.6% ou 100% - On va arriver après calcul à P(B|A)=54.12% , ce qui ne veut rien dire du tout vu la précision des données initiales.
Utilité en SEO, pour Google
Pour Google, cette formule de Bayes est drôlement utile, car elle permet de faire croire à un processus de réflexion.
On l’a vu dans le cas du chocolat Nobel, là où l’humain utilise un raisonnement inductif, basé sur notre expérience propre (le chocolat ne rend pas suprêmement intelligent, et même si c’était le cas, le nombre de Nobel est limité, le chocolat ne serait donc pas le seul facteur discriminant vu que beaucoup de personnes en mangent), la machine peut aboutir à une conclusion probable similaire, basée uniquement sur des probabilités basiques, facilement calculables.
En moyenne, sur le volume, les statistiques sont bonnes, tout va bien.
Et Google n’en demande pas plus.
Google ne s’intéresse pas aux cas particuliers. Il se moque bien des faux positifs, des cas extrêmes qui ne rentrent pas dans les cases.
Ce qu’il veut, c’est éliminer X% du spam.
Google fait croire que son algo « raisonne », qu’il « analyse ». En fait, il ne fait que calculer des probabilités.
La méthode ressemble à ça :
- je jette dans la marmite un certain nombre de facteurs potentiels (voir je laisse la machine les « inventer »)
- je calcule les probabilités, je les inverse avec la formule de Bayes.
- Si j’obtiens une probabilité conditionnelle suffisante (70% de réussite ?) sur mon échantillon test,alors je valide, j’applique ce facteur à tout le monde.
Aucun raisonnement, juste des calculs de probabilité sur un échantillon.
Pourquoi Google vous entube
On voit régulièrement des réflexions de SEO qui se basent sur un raisonnement purement logique:
« Google ne peut pas faire ceci ou cela car ça voudrait dire… » suivi de cas particuliers.
ou inversement :
» Si on fait ça sur un site, ça veut dire que le webmaster… et donc … ».
En fait, si certains facteurs peuvent être ajoutés par des humains, c’est la machine et l’analyse statistique qui aura le dernier mot.
On ne peut pas espérer comprendre l’algorithme de Google en se basant uniquement sur un raisonnement logique, car Google n’est pas logique.
Il est statistique.
C’est pour la même raison que les études de corrélation sont souvent faussées ou pauvres en résultat actionnables.
Les statistiques sont vraies sur un échantillon, sur une population donnée.
Quand vous essayez de faire du « reverse engineering » statistique sur Google en épluchant les serps et en analysant les propriétés des premiers, vous calculez des statistiques sur une population qui n’est *forcément* pas la même que celle que Google a utilisé pour faire son apprentissage.
(ex: traitement différent d’une langue à une autre, d’une théma à une autre; élément d’un site qui déclenche l’application de filtres particuliers…)
Vos données de base sont déjà faussées. Même en appliquant Bayes, même en raisonnant juste, vous êtes cuit.
Bien sur, les grandes tendances, les facteurs qui ont un poids important vont ressortir.
Mais ne vous attendez pas à une bonne précision ou à découvrir un facteur magique passé inaperçu.
Enfin, gardez à l’esprit que les statistiques n’ont de sens que sur une population, et n’ont aucune légitimité au niveau d’un individu isolé (votre site) ou d’un échantillon (vos sites)
Imaginez par exemple pour prendre une image simple que Google ait classé les sites « tip top » en deux catégories: une cloche à gauche, et une autre cloche à droite.
En moyenne, tout ce qu’on voit est une grosse cloche au milieu, et c’est là dessus que vous vous basez.
Vous construisez votre site dans la cloche du milieu.
Ni dans celle de gauche, ni dans celle de droite: Bing, vous êtes sonnés.
Comment gagner quand même ?
- Connaitre un minimum les outils et algos de Google, savoir ce qu’il fait, ce qu’il peut faire – et ne pas faire – comment on peut ou pas tricher et le « démonter » pour comprendre comment il fonctionne.
- laisser parler l’intuition, l’expérience, l’expertise.
Une machine , un système dit expert peut avoir raison à 80, 90% ou même 98% du temps; les 2% qui lui manquent restent du ressort de l’intelligence et de la créativité humaine, et c’est là que les SEOs qui mangent du chocolat peuvent exercer tout leur art.
97.3% des SEOs sympa ont tweeté cet article
33.33% des ados qui lisent ce blog n’ont *pas* partagé ce lien sur Facebook
Plus de 99% des SEOs sur Google+ ont rempli leur profile G+
[1] http://www.laurentbourrelly.com/blog/
[2] Pour ceux qui veulent en savoir plus sur Bayes, il parait que 67% des sites dans le top 10 ont un lien sortant vers Wikipédia : http://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Bayes
[3] Etude Webspam
Merci pour la reco 🙂
On n’insiste jamais assez sur les faux positifs. J’ai encore eu cette semaine un cas où on me présente un contre-exemple à ma démo. Tant mieux pour celui là, mais ça ne veut pas dire qu’en l’imitant on obtiendra un résultat similaire.
Pour ajouter à ta conclusion, je dis toujours « faut tester ». Même si le déploiement sur d’autres cas et surtout la généralisation sur les fondamentaux du référencement n’est pas de mise, un bon test est toujours éloquent pour un cas particulier.
C’est n’importe quoi ton article, tu évoques des probabilité statistiques en partant d’un syllogisme! :p
http://fr.wikipedia.org/wiki/Syllogisme
Yes, Bingo ! Les commentaires de Rudy sont placés à 87% sur des articles qui valent le détour !
Blague à part, tu mets bien le doigt sur la différence fondamentale entre la réflexion/intelligence humaine et l’approche purement probabiliste de nombreux systèmes experts, dont Google.
Ton article est nickel. L’étude des ranking factors de search metrics tombe précisément dans ce que tu décris.
Déjà, pour pouvoir parler de corrélation statistique, il y a un truc tout simple qui s’appelle le test du Khi2 que tout le monde passe à la trappe 🙂
Là, c’est juste pour valider la corrélation, et on a pas encore parlé de causalité.
Bref, à la prochaine étude qui fait clignoter mon bullshitomètre, j’en publie une sur la corrélation entre rankings et couleur de background..
Au fait, l’analogie du chocolat prix Nobel n’est pas de moi.
Le seul problème est que je ne me souviens plus à qui revient la paternité. Sylvain Peyronnet peut-être ?
Argh, nous v’la bien !
Va falloir faire une analyse ADN. C’est fiable à combien ça ?
Toujours est-il que c’est en lisant ton topo sur le top 10 des facteurs de positionnement que le chocolat m’a donné envie de prendre la plume.
Je crains le passage de Sylvain Peyronnet, j’ai forcément raconté mon lot d’approximations 😀
Bah non, il est plutôt bien ton article 😉 Faut pas avoir peur comme ça !
C’est une très bonne remarque, et il faut savoir que même chez les chercheurs en lutte contre le webspam, les tests de validité type chi2 sont très peu utilisés. Dans un de nos articles, qu’on présente d’ailleurs à la masterclass, on présente trois méthodes de déclassement du webspam. Une des méthode semble fonctionner, mais avec un test de chi2 on a montré que c’est un artefact de l’expérience, et qu’en fait on ne peut pas conclure ! Pour un article de recherche qui fait ça, combien ont conclu faussement ?
Un peu compliqué quand même ton article. Pourtant, c’est bien utile cette histoire de renversement de probabilité. Cela montre que l’optimisation d’un site ne se résume pas à prendre toutes les recettes du site posé en première position, que cela ne marche pas ! Au contraire, il faut souvent faire quelque chose de différent, le SEO ne se résume pas à 200 critères.
Là où je ne suis pas absolument d’accord, c’est de présenter les choses en disant que si les 10 premiers ont le KW dans le Title cela ne veut rien dire. Je pense au contraire que cela donne une indication précieuse, même si le poids du critère « KW dans le title n’est pas vérifié », c’est une piste de travail.
Je pense qu’il aurait fallu travailler cette notion pour rendre l’article plus pratique.
Merci pour le retour, Laurent.
L’exemple « kw dans le titre » est sans doute mal choisi, car c’est effectivement un élément important, et les facteurs dont le poids est important vont tout de même ressortir via ces méthodes.
Par contre, seul, sur quelques requêtes, ça n’a aucune validité statistique et ça ne veut rien dire.
Il se trouve que dans ce cas précis, si; mais c’est l’exception 😉
Merci Sylvain 😉
Je n’avais pas les genoux qui tremblaient 😀 , mais j’avoue que j’ai plus une culture générale et une certaine intuition de certains concepts mathématiques, sans forcément en maitriser les concepts en détail.
Je suis donc conscient (ou pas) de prendre parfois des raccourcis, ce que certains puristes n’apprécient pas.
J’ai ri Sylvain !
Selon des études de OpinionWay et Ernst & Young, il apparait que les personnes en surpoids ont confiance en leur banque, alors que les autres s’en méfient.
Selon une enquête OpinionWay publiée mercredi dernier, la France compte 16% d’obèses et 30% de personnes en surpoids, soit 46% de la population.
De l’étude du cabinet réputé Ernst & Young, il ressort que seules 44% des personnes interrogées font encore confiance en leur banque.
CQFD, les personnes en surpoids sont les seules à faire confiance à leur banque.
(Les 2% de différence sont bien entendu imputables à l’erreur de mesure.)
Sources :
http://leplus.nouvelobs.com/contribution/1155156-46-des-francais-en-surpoids-quand-est-ce-que-la-mode-va-le-comprendre.html
http://lexpansion.lexpress.fr/actualite-economique/moins-d-un-client-sur-deux-fait-confiance-a-sa-banque_1497899.html
Vous en pensez quoi ?