Pourquoi il faut arrêter avec les classements de blogs et de bloggueurs

Allez, voici un papier façon "pavé dans la mare" pour cette fin de semaine. Désolé, c'est sans doute un peu long à lire mais avec le week-end pluvieux qui s'annonce, je me suis dit que ça pourrait peut-être occuper un peu de votre temps de façon pas trop idiote.

Executive Summary : Les classements de blogs et de bloggueurs, quels qu'ils soient, c'est du gros pipeau, de la turbo-flute. Ne perdez pas votre temps avec ça ! Et j'explique pourquoi.

Tout a commencé en début de semaine quand en regardant les liens entrants sur mon blog j'ai constaté que celui-ci figurait dans deux classement des top blogs Francophones. Au début, je n'y croyais pas trop, car je ne pense pas en toute honnêteté que ce modeste blog techno ait une large audience nationale. Mais j'ai bien vérifié deux fois et aucun doute, c'était bien de mon blog qu'il s'agissait.

Il s'agit de deux classements de blogs Français, dont en premier lieu celui produit par une boite Espagnole nommée Alianzo - qui a été relayé il y a quelques temps par certains blogs Français, le second est un classement récent nommé BlogHorizon.

En y regardant de plus près, j'ai commencé à sourire plus largement. Voilà pourquoi.

Commençons par Alianzo. En y regardant rapidement, leur Top10 semble plausible. Loic Le Meur indétronable en première place - jusque là pas de surprise - et ensuite, on retrouve dans le Top10 les blogs hyper connus suivants : PointBlog, Tristan Nitot, Techcrunch Français, Embruns, Fredcavazza et le team blog de Netvibes. Jusque là, c'est plausible.

Mon blog arriverait, selon Alianzo, en position 82, soit dix places de mieux que celui de Michel Edouard Leclerc. Déjà j'ai un sérieux doute sur ce classement.

Seconde lecture du classement de Alianzo : aucune trace des blogs de Julien Codorniou, ni de celui de Maitre Eolas (*2), qui ont tous deux, j'en suis certain, des audiences autrement plus importantes que la mienne. Bon, pour être complètement honnête, j'avoue avoir inscrit mon blog sur Alianzo. Aussi, si le classement de Alianzo ne porte que sur les blogs qui ont été inscrits sur leur site, j'ai des sérieux doutes sur la fiabilité du résultat. Mais ça semble pourtant bien être le cas.

Coup d'oeil à la FAQ de Alianzo pour tenter de comprendre sur quels critères et métriques ils se basent : sans surprise, ils font un calcul savant entre les résultats remontés par Technorati et Alexa. OK, j'ai compris ce qui cloche. J'en reparle un peu plus tard.

Passons maintenant à BlogHorizon.

Là, c'est la surprise, je suis carrément en 30ème position. Diantre, comment ai-je pu en arriver là ? Que ce passe-t-il, je serais devenu si connu et si populaire en si peu de temps ? Impossible.

Que nenni.

BlogHorizon, dans le classement en question, se base sur le nombre d'abonnés au flux RSS du blog en question, nombre d'abonnés tel que rapporté par FeedBurner (avec un B majuscule, si si, ils y tiennent ;)). Double problème à ce niveau. Je m'explique plus tard.

Maitre Eolas et Codor sont toujours absents de ce classement. OK, pas plausible non plus. Mais pourquoi donc ? Parce que BlogHorizon se base sur le nombre d'abonnés à FeedBurner. Il faut donc pour qu'un blog figure dans le classement de BlogHorizon que d'une part, il utilise FeedBurner, et que d'autre part, il ait activé la publication du nombre d'abonnés dans son compte FeedBurner.

De toutes façon, vouloir mesurer l'audience de son blog en comptant le nombre d'abonnés à son flux RSS est une tentative perdue d'avance. Un flux RSS peut être repris, republié et donné lieu ensuite à N lectures qu'on ne peut pas quantifier. L'autre problème avec FeedBurner, c'est que pour que "ça marche" il faut utiliser le service dès la mise en ligne du blog, et pouvoir éliminer le flux RSS par défaut du blog, faute de quoi vous ne pourrez jamais empêcher un lecteur de s'abonner à votre flux "direct" au lieu de votre flux FeedBurner, et donc de ne pas apparaître dans les chiffres remontés par FeedBurner.

Alors, en scrollant un peu sur BlogHorizon, je tombe sur un autre tableau, un autre classement visiblement plus ancien qui combinait des chiffres provenant de Technorati et de Alexa. OK, donc on revient au même cas que pour Alianzo, mais en pire concernant Alexa, comme je vais l'expliquer bientôt.

Du coup, je suis retourné m'amuser avec d'autres services de classement de blogs, dont EgoSurf et surtout le service BlogJuice qui donne lui aussi des résultats qui devraient surprendre quiconque joue avec le service pendant plus de cinq minutes.

Je me suis amusé à comparer mon score sur BlogJuice avec celui des blogs de FredCavazza et de Loic Le Meur, non pas que j'estime être dans le même peloton, mais histoire de comparer avec deux blogs dont l'audience n'est pas à mettre en doute, et qui possèdent chacun leur nom de domaine propre.

Alors voilà ce que ça donne :

BlogJuice, scores comparés 

4.8 versus 4.7... Vous pensez vraiment que mon humnle blog et celui du Sieur Cavazza ont des audiences comparables ? Moi pas ! 

Fred Cavazza n'a sans doute pas qu'un seul lecteur abonné à son blog via BlogLines (1ère colonne), c'est même impossible, je n'y crois pas. Mais alors pourquoi et comment BlogJuice attribuerait cette valeur de 1 à Fred Cavazza sur BlogLines ? En allant consulter le site de BlogLines, je constate qu'ils ne proposent aucune API qui fournit ce chiffre directement. Le site BlogJuice mentionne à propos de cette première colonne : "The approximate number of BlogLine subscribers". OK, donc ça signifie pour moi en toute rigueur que cette valeur n'est pas fiable. BlogJuice a sans doute trouvé un moyen pas très orthodoxe d'"évaluer" le nombre d'abonnés à un flux RSS via BlogLines. Or, ce critère pèse pour 40% de la note globale de BlogJuice. Le pourcentage d'erreur sur la note globale résultante est non négligeable.

Seconde colonne : C'est le Ranking fourni par Alexa. A ce niveau, BlogJuice et Alianzo traitent cette information de la même façon. De l'autre côté, BlogHorizon prend ce chiffre de façon brute. BlogHorizon devrait sans doute imiter la façon dont les deux autres traitent ce critère, à savoir de ne pas le prendre en compte pour les blogs n'ayant pas leur nom de domaine en propre.

En effet, Alexa ne fournit qu'une note globale au niveau du nom de domaine "racine". Il ne descend pas plus bas. En clair, n'importe quel blog sur le domaine .wordpress.com obtient le même score qu'un autre blog sur le domaine .wordpress.com, y compris Scoble et son Scobleizer. C'est sympa pour les bloggueurs anonymes, ça booste leur score. En revanche pour les autres, c'est moyen. En tous cas, ça n'est pas "scientifiquement" juste.

Du coup, comme mon blog est sur la plate-forme corporate Microsoft, Alianzo et BlogJuice ne me créditent fort heureusement pas du score du domaine MSDN.com (sinon j'en cramerai plus d'un dans l'hexagone), ils me créditent royalement d'une note de zéro. Ce que je veux dire, c'est que Alexa ne peut pas être utilisé pour réaliser des classements de blogs, car d'une part, ça pénaliserait les personnes ayant des blogs sur leur noms de domaine propre, et ça doperait artificiellement le classement de deux qui sont sur des plateformes mutualisées. Alexa est tout bonnement INEXPLOITABLE pour réaliser des classements de blogs.

Regardez par exemple le premier classement de BlogHorizon, celui qui se base sur Technorati et Alexa. Maitre Eolas (position 22) et le brave blog en position 97 sont tous deux hébergés sur le domaine free.fr et sont du coup crédités d'un rank exceptionnel de 99 par Alexa. Mauvaise valeur. Inutilisable. Ou plutôt, mauvaise interprêtation de ce que cette valeur signifie et utilisation inapropriée de ce chiffre par BlogHorizon.

Au moins, au niveau du Ranking fourni par Alexa, la FAQ de Alianzo précise la chose suivante - dans un Français a priori traduit de l'Espagnol via Babelfish :

"Le hit-parade (Top) est le résultat de l'application d'un algorithme qui combine une série de données de plusieurs sources : liaisons en Technorati vers le blog (ceci mesure combien de blogs relient vers un autre), des liaisons en Google, liaisons en Yahoo!, Alexa (seulement s'il dispose de dominion propre) , ou abonnées RSS en Bloglines. "

Donc pour Alianzo, un blog n'ayant pas de domaine en nom propre a un score Alexa de zéro. Ca limite la casse mais ça n'est pas équitable. Du coup, les blogs sur des domaines mutualisés sont arbitrairement pénalisés dans le classement de Alianzo.

Allez, on revient un moment sur BlogJuice. La quatrième colonne dans BlogJuice correspond au nombre de liens entrants sur un blog, nombre de liens tel que remonté par Technorati.

BlogJuice, le détail du calcul 

Mais BlogJuice utilise également par ailleurs le rank Technorati qui prend lui même cette valeur en compte. Cette valeur est donc indirectement prise deux fois en compte dans BlogJuice et prend donc un poids important dans la note globale. Etait-ce une volonté de la personne qui a conçu la méthode de calcul du score ? Pas certain.

Ce qui m'amène à me pencher sur le cas de Technorati.

Je scrute sérieusement le fonctionnement de Technorati depuis deux ou trois mois, depuis qu'on a commencé à bricoler notre site Frimr.com, qui bien qu'étant "un faux site Web 2.0" de démo, prend toutefois comme prétexte de calculer un indice de popularité sur le Web. J'ai quand même tenté de sortir une formulede calcul qui tienne un peu la route. On est en plein dans le sujet présent avec Frimr.com.

Si vous avez lu jusque là, surtout ne vous arrêtez pas en vous disant : "OK, j'ai compris, il va maintenant nous expliquer pourquoi son truc Frimr.com est le seul qui donne une valeur fiable". Non, certes non. Comme les autres, le chiffre qu'on calcule avec Frimr n'a presque aucune fiabilité, et je le sais d'autant plus que j'ai écrit l'algo de calcul : comme les autres, on additionne allègrement des poires et des bananes. Mais poursuivons si vous le voulez bien.

Technorati, donc. Plusieurs bloggueurs se sont déjà fait l'écho de problèmes de fonctionnement de Technorati. Voir par exemple ici et . En outre, le second billet explique comment Technorati fonctionne "à deux vitesses" selon qu'ils considèrent qu'un blog fait partie du haut du panier ou pas. Les plus visibles sont scrutés plus souvent que les autres. L'effet pervers est qu'un nouveau blog, ou un blog à faible traffic dont l'audience augmente progressivement a peu de chances de voir son ranking Technorati suivre automatiquement l'accroissement de son audience de façon proportionelle, sauf si l'auteur du blog ne s'assure pas de "pinger" régulièrement Technorati à chaque nouveau billet posté. Faute de quoi, son blog ne sera pas scanné assez souvent, et ses valeurs pas mises à jour.

A titre d'illustration, regardez ce que donne Technorati sur ce blog pourtant mis à jour très régulièrement par son auteur, et encore pas plus tard qu'hier. Pour Technorati, le site n'a pas été mis à jour depuis 89 jours (*1). Du coup, le dernier billet de ce blog qui comporte un lien vers le mien est resté inconnu de Technorati, et par conséquent, c'est le rank Technorati de mon blog qui est incorrect car ce lien entrant n'est pas porté à mon crédit. En fait, bien que je pinge Technorati manuellement à chaque nouveau billet, Technorati n'a trouvé aucun nouveau lien entrant vers mon blog depuis une bonne quinzaine de jours déjà, ce qui est erroné.

Comment et pourquoi ?

Je pense tout simplement que Technorati n'arrive plus à suivre le rythme de la création des nouveaux blogs et de la publication des billets sur les millions de blogs qu'il est supposé monitorer. Sans parler des moments où le site et le service de Technorati ne répondent carrément pas. Idem pour Alexa qui est down en ce moment, et ce n'est pas la première fois.

En conclusion ?

Je pense que le seul modèle de classement existant qui puisse fonctionner est celui de Technorati. Encore faudrait-ils qu'ils disposent de la puissance machine suffisante pour encaisser l'énorme masse de traitement qu'ils devraient réaliser. Tout ceci doit représenter un coût qu'ils ne doivent pas être prêts à supporter. Quelles sont les sources de revenus de Technorati ? Qui supporte ces coûts ? Je n'en ai aucune idée, mais si vous avez des informations sur la question, ça éclairerait ma lanterne.

Au final, je pense très sincèrement que l'on ne dispose actuellement d'aucun moyen de réaliser un classement "scientifique" et correct des blogs ou des blogueurs.

En revanche, à titre individuel, des outils comme BlogJuice, Technorati ou même FeedBurner peuvent donner des indications sur les tendances et les variations d'une période à l'autre. Mais vouloir comparer les scores de deux blogs différents au travers de ces outils est à mon sens illusoire, et un peu naïf.

Et vous, qu'en pensez-vous ?

Mais au fait, j'ai oublié de poser la question principale : Pourquoi tant de personnes cherchent-elles donc à réaliser des classements de blogs ? Les bloggeurs auraient-ils décidément un ego plus développé que la moyenne ?

Non, en fait, j'ai deux ou trois idées sur les motivations réelles des personnes qui voudraient fabriquer des classements des blogs et des influenceurs. Je ne suis pas si naïf ;)

[Edit] : *1 - justement, il semblerait que le complot cosmoplanétaire contre moi ait encore frappé. Le blog en question vient justement d'être scanné par Technorati et le lien depuis son dernier billet vers mon blog apparait à présent sur la page technorati de mon blog. N'empèche que jusqu'à hier, Technorati était aveuglé et indiquait que ce blog n'avait pas été mis à jour depuis plus de 80 jours...

[Edit 2] :*2 : José A. del Moral de Alianzo me signale en commentaire que le blog de Maitre Eolas figure bien dans leur classement. Apologies.