Pourquoi il faut arrêter avec les classements de blogs et de bloggueurs


Allez, voici un papier façon “pavé dans la mare” pour cette fin de semaine. Désolé, c’est sans doute un peu long à lire mais avec le week-end pluvieux qui s’annonce, je me suis dit que ça pourrait peut-être occuper un peu de votre temps de façon pas trop idiote.



Executive Summary : Les classements de blogs et de bloggueurs, quels qu’ils soient, c’est du gros pipeau, de la turbo-flute. Ne perdez pas votre temps avec ça ! Et j’explique pourquoi.


Tout a commencé en début de semaine quand en regardant les liens entrants sur mon blog j’ai constaté que celui-ci figurait dans deux classement des top blogs Francophones. Au début, je n’y croyais pas trop, car je ne pense pas en toute honnêteté que ce modeste blog techno ait une large audience nationale. Mais j’ai bien vérifié deux fois et aucun doute, c’était bien de mon blog qu’il s’agissait.


Il s’agit de deux classements de blogs Français, dont en premier lieu celui produit par une boite Espagnole nommée Alianzo – qui a été relayé il y a quelques temps par certains blogs Français, le second est un classement récent nommé BlogHorizon.


En y regardant de plus près, j’ai commencé à sourire plus largement. Voilà pourquoi.


Commençons par Alianzo. En y regardant rapidement, leur Top10 semble plausible. Loic Le Meur indétronable en première place – jusque là pas de surprise – et ensuite, on retrouve dans le Top10 les blogs hyper connus suivants : PointBlog, Tristan Nitot, Techcrunch Français, Embruns, Fredcavazza et le team blog de Netvibes. Jusque là, c’est plausible.


Mon blog arriverait, selon Alianzo, en position 82, soit dix places de mieux que celui de Michel Edouard Leclerc. Déjà j’ai un sérieux doute sur ce classement.


Seconde lecture du classement de Alianzo : aucune trace des blogs de Julien Codorniou, ni de celui de Maitre Eolas (*2), qui ont tous deux, j’en suis certain, des audiences autrement plus importantes que la mienne. Bon, pour être complètement honnête, j’avoue avoir inscrit mon blog sur Alianzo. Aussi, si le classement de Alianzo ne porte que sur les blogs qui ont été inscrits sur leur site, j’ai des sérieux doutes sur la fiabilité du résultat. Mais ça semble pourtant bien être le cas.


Coup d’oeil à la FAQ de Alianzo pour tenter de comprendre sur quels critères et métriques ils se basent : sans surprise, ils font un calcul savant entre les résultats remontés par Technorati et Alexa. OK, j’ai compris ce qui cloche. J’en reparle un peu plus tard.


Passons maintenant à BlogHorizon.


Là, c’est la surprise, je suis carrément en 30ème position. Diantre, comment ai-je pu en arriver là ? Que ce passe-t-il, je serais devenu si connu et si populaire en si peu de temps ? Impossible.


Que nenni.


BlogHorizon, dans le classement en question, se base sur le nombre d’abonnés au flux RSS du blog en question, nombre d’abonnés tel que rapporté par FeedBurner (avec un B majuscule, si si, ils y tiennent ;)). Double problème à ce niveau. Je m’explique plus tard.


Maitre Eolas et Codor sont toujours absents de ce classement. OK, pas plausible non plus. Mais pourquoi donc ? Parce que BlogHorizon se base sur le nombre d’abonnés à FeedBurner. Il faut donc pour qu’un blog figure dans le classement de BlogHorizon que d’une part, il utilise FeedBurner, et que d’autre part, il ait activé la publication du nombre d’abonnés dans son compte FeedBurner.


De toutes façon, vouloir mesurer l’audience de son blog en comptant le nombre d’abonnés à son flux RSS est une tentative perdue d’avance. Un flux RSS peut être repris, republié et donné lieu ensuite à N lectures qu’on ne peut pas quantifier. L’autre problème avec FeedBurner, c’est que pour que “ça marche” il faut utiliser le service dès la mise en ligne du blog, et pouvoir éliminer le flux RSS par défaut du blog, faute de quoi vous ne pourrez jamais empêcher un lecteur de s’abonner à votre flux “direct” au lieu de votre flux FeedBurner, et donc de ne pas apparaître dans les chiffres remontés par FeedBurner.


Alors, en scrollant un peu sur BlogHorizon, je tombe sur un autre tableau, un autre classement visiblement plus ancien qui combinait des chiffres provenant de Technorati et de Alexa. OK, donc on revient au même cas que pour Alianzo, mais en pire concernant Alexa, comme je vais l’expliquer bientôt.


Du coup, je suis retourné m’amuser avec d’autres services de classement de blogs, dont EgoSurf et surtout le service BlogJuice qui donne lui aussi des résultats qui devraient surprendre quiconque joue avec le service pendant plus de cinq minutes.


Je me suis amusé à comparer mon score sur BlogJuice avec celui des blogs de FredCavazza et de Loic Le Meur, non pas que j’estime être dans le même peloton, mais histoire de comparer avec deux blogs dont l’audience n’est pas à mettre en doute, et qui possèdent chacun leur nom de domaine propre.


Alors voilà ce que ça donne :


BlogJuice, scores comparés 


4.8 versus 4.7… Vous pensez vraiment que mon humnle blog et celui du Sieur Cavazza ont des audiences comparables ? Moi pas ! 


Fred Cavazza n’a sans doute pas qu’un seul lecteur abonné à son blog via BlogLines (1ère colonne), c’est même impossible, je n’y crois pas. Mais alors pourquoi et comment BlogJuice attribuerait cette valeur de 1 à Fred Cavazza sur BlogLines ? En allant consulter le site de BlogLines, je constate qu’ils ne proposent aucune API qui fournit ce chiffre directement. Le site BlogJuice mentionne à propos de cette première colonne : “The approximate number of BlogLine subscribers“. OK, donc ça signifie pour moi en toute rigueur que cette valeur n’est pas fiable. BlogJuice a sans doute trouvé un moyen pas très orthodoxe d'”évaluer” le nombre d’abonnés à un flux RSS via BlogLines. Or, ce critère pèse pour 40% de la note globale de BlogJuice. Le pourcentage d’erreur sur la note globale résultante est non négligeable.


Seconde colonne : C’est le Ranking fourni par Alexa. A ce niveau, BlogJuice et Alianzo traitent cette information de la même façon. De l’autre côté, BlogHorizon prend ce chiffre de façon brute. BlogHorizon devrait sans doute imiter la façon dont les deux autres traitent ce critère, à savoir de ne pas le prendre en compte pour les blogs n’ayant pas leur nom de domaine en propre.


En effet, Alexa ne fournit qu’une note globale au niveau du nom de domaine “racine”. Il ne descend pas plus bas. En clair, n’importe quel blog sur le domaine .wordpress.com obtient le même score qu’un autre blog sur le domaine .wordpress.com, y compris Scoble et son Scobleizer. C’est sympa pour les bloggueurs anonymes, ça booste leur score. En revanche pour les autres, c’est moyen. En tous cas, ça n’est pas “scientifiquement” juste.


Du coup, comme mon blog est sur la plate-forme corporate Microsoft, Alianzo et BlogJuice ne me créditent fort heureusement pas du score du domaine MSDN.com (sinon j’en cramerai plus d’un dans l’hexagone), ils me créditent royalement d’une note de zéro. Ce que je veux dire, c’est que Alexa ne peut pas être utilisé pour réaliser des classements de blogs, car d’une part, ça pénaliserait les personnes ayant des blogs sur leur noms de domaine propre, et ça doperait artificiellement le classement de deux qui sont sur des plateformes mutualisées. Alexa est tout bonnement INEXPLOITABLE pour réaliser des classements de blogs.


Regardez par exemple le premier classement de BlogHorizon, celui qui se base sur Technorati et Alexa. Maitre Eolas (position 22) et le brave blog en position 97 sont tous deux hébergés sur le domaine free.fr et sont du coup crédités d’un rank exceptionnel de 99 par Alexa. Mauvaise valeur. Inutilisable. Ou plutôt, mauvaise interprêtation de ce que cette valeur signifie et utilisation inapropriée de ce chiffre par BlogHorizon.


Au moins, au niveau du Ranking fourni par Alexa, la FAQ de Alianzo précise la chose suivante – dans un Français a priori traduit de l’Espagnol via Babelfish :



“Le hit-parade (Top) est le résultat de l’application d’un algorithme qui combine une série de données de plusieurs sources : liaisons en Technorati vers le blog (ceci mesure combien de blogs relient vers un autre), des liaisons en Google, liaisons en Yahoo!, Alexa (seulement s’il dispose de dominion propre), ou abonnées RSS en Bloglines.


Donc pour Alianzo, un blog n’ayant pas de domaine en nom propre a un score Alexa de zéro. Ca limite la casse mais ça n’est pas équitable. Du coup, les blogs sur des domaines mutualisés sont arbitrairement pénalisés dans le classement de Alianzo.


Allez, on revient un moment sur BlogJuice. La quatrième colonne dans BlogJuice correspond au nombre de liens entrants sur un blog, nombre de liens tel que remonté par Technorati.


BlogJuice, le détail du calcul 


Mais BlogJuice utilise également par ailleurs le rank Technorati qui prend lui même cette valeur en compte. Cette valeur est donc indirectement prise deux fois en compte dans BlogJuice et prend donc un poids important dans la note globale. Etait-ce une volonté de la personne qui a conçu la méthode de calcul du score ? Pas certain.


Ce qui m’amène à me pencher sur le cas de Technorati.


Je scrute sérieusement le fonctionnement de Technorati depuis deux ou trois mois, depuis qu’on a commencé à bricoler notre site Frimr.com, qui bien qu’étant “un faux site Web 2.0” de démo, prend toutefois comme prétexte de calculer un indice de popularité sur le Web. J’ai quand même tenté de sortir une formulede calcul qui tienne un peu la route. On est en plein dans le sujet présent avec Frimr.com.


Si vous avez lu jusque là, surtout ne vous arrêtez pas en vous disant : “OK, j’ai compris, il va maintenant nous expliquer pourquoi son truc Frimr.com est le seul qui donne une valeur fiable“. Non, certes non. Comme les autres, le chiffre qu’on calcule avec Frimr n’a presque aucune fiabilité, et je le sais d’autant plus que j’ai écrit l’algo de calcul : comme les autres, on additionne allègrement des poires et des bananes. Mais poursuivons si vous le voulez bien.


Technorati, donc. Plusieurs bloggueurs se sont déjà fait l’écho de problèmes de fonctionnement de Technorati. Voir par exemple ici et . En outre, le second billet explique comment Technorati fonctionne “à deux vitesses” selon qu’ils considèrent qu’un blog fait partie du haut du panier ou pas. Les plus visibles sont scrutés plus souvent que les autres. L’effet pervers est qu’un nouveau blog, ou un blog à faible traffic dont l’audience augmente progressivement a peu de chances de voir son ranking Technorati suivre automatiquement l’accroissement de son audience de façon proportionelle, sauf si l’auteur du blog ne s’assure pas de “pinger” régulièrement Technorati à chaque nouveau billet posté. Faute de quoi, son blog ne sera pas scanné assez souvent, et ses valeurs pas mises à jour.


A titre d’illustration, regardez ce que donne Technorati sur ce blog pourtant mis à jour très régulièrement par son auteur, et encore pas plus tard qu’hier. Pour Technorati, le site n’a pas été mis à jour depuis 89 jours (*1). Du coup, le dernier billet de ce blog qui comporte un lien vers le mien est resté inconnu de Technorati, et par conséquent, c’est le rank Technorati de mon blog qui est incorrect car ce lien entrant n’est pas porté à mon crédit. En fait, bien que je pinge Technorati manuellement à chaque nouveau billet, Technorati n’a trouvé aucun nouveau lien entrant vers mon blog depuis une bonne quinzaine de jours déjà, ce qui est erroné.


Comment et pourquoi ?


Je pense tout simplement que Technorati n’arrive plus à suivre le rythme de la création des nouveaux blogs et de la publication des billets sur les millions de blogs qu’il est supposé monitorer. Sans parler des moments où le site et le service de Technorati ne répondent carrément pas. Idem pour Alexa qui est down en ce moment, et ce n’est pas la première fois.


En conclusion ?


Je pense que le seul modèle de classement existant qui puisse fonctionner est celui de Technorati. Encore faudrait-ils qu’ils disposent de la puissance machine suffisante pour encaisser l’énorme masse de traitement qu’ils devraient réaliser. Tout ceci doit représenter un coût qu’ils ne doivent pas être prêts à supporter. Quelles sont les sources de revenus de Technorati ? Qui supporte ces coûts ? Je n’en ai aucune idée, mais si vous avez des informations sur la question, ça éclairerait ma lanterne.


Au final, je pense très sincèrement que l’on ne dispose actuellement d’aucun moyen de réaliser un classement “scientifique” et correct des blogs ou des blogueurs.


En revanche, à titre individuel, des outils comme BlogJuice, Technorati ou même FeedBurner peuvent donner des indications sur les tendances et les variations d’une période à l’autre. Mais vouloir comparer les scores de deux blogs différents au travers de ces outils est à mon sens illusoire, et un peu naïf.


Et vous, qu’en pensez-vous ?


Mais au fait, j’ai oublié de poser la question principale : Pourquoi tant de personnes cherchent-elles donc à réaliser des classements de blogs ? Les bloggeurs auraient-ils décidément un ego plus développé que la moyenne ?


Non, en fait, j’ai deux ou trois idées sur les motivations réelles des personnes qui voudraient fabriquer des classements des blogs et des influenceurs. Je ne suis pas si naïf 😉


[Edit] : *1 – justement, il semblerait que le complot cosmoplanétaire contre moi ait encore frappé. Le blog en question vient justement d’être scanné par Technorati et le lien depuis son dernier billet vers mon blog apparait à présent sur la page technorati de mon blog. N’empèche que jusqu’à hier, Technorati était aveuglé et indiquait que ce blog n’avait pas été mis à jour depuis plus de 80 jours…


[Edit 2] :*2 : José A. del Moral de Alianzo me signale en commentaire que le blog de Maitre Eolas figure bien dans leur classement. Apologies.

Comments (12)

  1. Merci por les commentaires. Je voudrais faire quelques précisions:

    – Le blog de Maître Eolas est sur le classement, en position 14e. Le blog de Julien Codorniou? Pas encore. On va rapidement le remettre.

    – La sélection des blogs a été faite par nous avec l’aide de Loic Lemeur pendant deux sémaines. Bien sur elle n’est pas parfaite, mais on croit au pouvoir communautaire pour l’ameliorer 😉

    – Notre français n’est pas parfait non plus 😉 Mais c’est pas le français de Bablefish non plus…

    – Complètement d’accord avec ton avis sur Alexa. C’est pourquoi notre algorithme ne tient pas tellement compte de ses données. Pour nous, les données les plus importants sont Technorati et Bloglines, car ce dernier tient compte de tous les blogs, sans exception. Google et Yahoo donnent aussi des données intéressants mais pas comme Technorati et Bloglines.

  2. Fred CAVAZZA says:

    Christophe,

    Je te confirme que ces classements n’ont pas beaucoup de sens. Je pense qu’il existe deux raisons principales à leur existence :

    1/ ils proviennent d’agences de communication qui souhaitent identifier et flatter les bloggeurs les plus influents pour espérer s’en servir comme support de publicité

    2/ ils proviennent de sociétés de mesure qui vont très certainement commencer à commercialiser des outils de surveillance et de ranking des blogs.

    Dans tous les cas de figure, leurs intentions sont loin d’être altruistes.

    /Fred

  3. CLaueR says:

    Bonjour José,

    Merci pour tes précisions.

    Je précise que ce billet n’est pas une attaque envers Alianzo ni envers quiconque. Simplement je voulais apporter quelques précisions sur certaines tentatives de classification qui manquent de rigueur, et d’autres dont l’approche de départ ne me semble pas bonne.

    Tu parles d’une sélection de blogs faite de concert avec Loïc. Justement, c’est cette approche qui me gène. Ca ressemble plus à des élections sur une liste finie de candidats qu’à un classement universel des blogs Français.

    Pour moi, le seul modèle acceptable pour un outil qui réaliserait un classement des blogs serait un outil qui fonctionnerait de façon autonome, non intrusive et sans nécessiter d’action particulière de l’auteur du blog.

    Exit donc :

    – exit FeedBurner qui nécessite de remplacer son flux RSS par défaut par celui proposé par FeedBurner,

    – exit les solutions qui nécessitent de placer un marqueur ou un contenu particulier dans le blog

    – exit les solutions qui nécessite que l’auteur du blog aille s’inscrire via un formulaire à leur service pour pouvoir être évalué et éventuellement figurer dans le classement

    – exit Technorati aussi, tant que leur fonctionnement sera aussi chaotique et qu’il nécessitera qu’on les "pinge" à chaque nouveau post

    Pour faire un parallèle qui nous parlera à tous : j’ai l’impression qu’on en est ici au même stade qu’à l’époque des premiers moteurs de recherche ou les crawlers n’étaient pas au point et où on pouvait aller proposer sa page perso ou son site web pour qu’il soit pris en compte par le moteur.

    Un moteur de recherche idéal doit "trouver" les contenus par lui même en crawlant dune page à l’autre, et mettre ses indexes à jour en conséquence.

    Aujourd’hui, ce qui se rapprocherait le plus de ça est selon moi Technorati. Malheureusement, en ce moment, Technorati … tout ça tout ça, je ne vais pas vous la refaire.

    Alors bien sur, que de monitorer plus de 60 millions de blogs et sans doute pas loin d’une centaine de millions de nouveaux billets par jour, ca représente un travail dingue et ça nécessite une puissance de traitement démente (des serveurs, encore des serveurs !!!) mais si quelqu’un veut réaliser ceci de façon un peu rigoureuse, c’est le prix à payer.

    Or, je ne pense pas que Technorati dispose actuellement de moyens comparables à ceux que Yahoo!, Microsoft et Google investissent (engloutissent ?) dans leurs moteurs de recherche respectifs.

    Surtout que la valorisation de l’information produite et sa traduction en cash est AMHA très incertaine pour le moment.

    Pour revenir avec Alexa, le plus drôle, c’est que les APIs de ce services sont payantes à la transaction ! Sympa de payer – ok pas très cher – pour une donnée non exploitable 😉

    Au passage, José, sans dévoiler de grands secrets de fabrication, comment vous faites pour récupérer les chiffres de BlogLines ? Je n’ai trouvé chez eux aucune API officielle qui expose ces chiffres…

  4. CLaueR says:

    Fred,

    Merci pour ton commentaire.

    J’en étais arrivé aux mêmes conclusions. A savoir que ces classements pourraient permettre aux agences ou aux annonceurs de répondre à des questions telles que :

    – Je vais lancer un nouveau modèle de téléphone/caméra. Je prévois d’en distrubuer X exemplaires gratuitement à des influenceurs en vue. A qui dois-je les adresser ?

    – J’entre en campagne, qui dois-je inviter à mes Universités d’Eté ?

    – Je prépare une grosse campagne de communication ou de promotion produit. Qui est-ce que je ne dois pas oublier d’inviter ?

    – etc …

    Il manque toutefois une notion clé à ces services pour répondre à ces questions : la "proximité" ou la "sympathie" d’un influenceur donné pour un sujet, une technologie, une marque ou des idées.

    Il faudrait donc ajouter à de tels services une couche de taxonomie des influenceurs, ou à défaut des fonctionnalités de type Business Intelligence. Ca n’est pas forcément infaisable, d’ailleurs…

  5. Bloglines? Bonne question. Les données de Bloglines sont très difficil à suivre, car il n’y a pas un seul feed RSS par blog. On doit prémièrement récuperer tous les flux RSS de chaque blog. Deuxièmement on doit prendre le nombre d’abonnés un par un, avec un moteur qu’on a fait. Mais je pense que ces données sont très bons.

    Technorati nous donne beacoup de problèmes, pas seulement parce que son API est très mauvaise, mais aussi parce qu’il y a des blogs qui ont beaucoup de liens artificiels (par exemple à cause d’un theme que l’auter a fait).

  6. Pour Fred. La seule question que je me pose est quelle est le problème de faire des classements avec un but lucratif? But lucratif et qualité ne sont pas de choses incompatibles.

  7. madd0 says:

    Salut Christophe,

    Je suis d’accord avec toi sur l’utilité potentielle des classements des blogs, mais à quand les classements fiables et comment les reconnaître ?

    T’as déjà expliqué quelques uns des problèmes des différentes méthodes de classement, mais je veux insister sur l’inexactitude du ranking Technorati que pourtant la plupart des personnes considèrent une mesure relativement fiable. Je m’explique :

    Pour commencer, Technorati ne sait pas reconnaître une redirection. Mon blog était initialement hébergé à une autre adresse (j’en passe sur les adresses), alors quand j’ai "déménagé" j’ai programmé des redirections automatiques vers la nouvelle adresse. Résultat : Technorati affiche 115 liens entrants vers mon blog !

    Comme si cela n’était pas suffisant, Technorati n’est pas encore capable (du moins pas automatiquement) de distinguer entre un _vrai_ lien entrant et un lien quelconque vers un blog. Par exemple, ce commentaire va probablement représenter un lien entrant vers mon blog en raison du lien créé automatiquement par Community Server à partir des informations de mon compte. En théorie, je pourrais donc m’amuser à écrire des commentaires sur des blogs connus et ainsi augmenter probablement mon rank Technorati.

    Dans le même genre d’exemple, les blogs hébergés un site tel que blogs.developpeur.org faussent énormément les statistiques. Dans cet exemple précis, chaque page de chaque blog possède des liens vers les posts les plus récents des autres blogs hébergés sur le même site, ce que Technorati interprète comme des liens entrants, ce qui, en retour, augmente le rank des différents blogs.

    Et enfin, dès qu’un blog sort un peu de la normale (devine de quel blog je parle) Technorati est incapable de le savoir. Par exemple, la plupart des posts sur mon blog sont écrits en plusieurs langues, ce qui soulève pas mal de questions : est-ce que cela compte comme plusieurs posts ? A ce moment-là mon nombre de posts par jour devrait être presque multiplié par 3. Est-ce que chaque lien sortant d’un de mes posts trilingues devrait compter comme trois liens entrants pour le blog concerné ?

    Voilà. Normalement, un commentaire de cette taille je l’aurais écrit sur mon propre blog et fait un lien pour essayer de gagner des visiteurs et pour pas "polluer" ton blog, mais vu les autres commentaires qu’il y a déjà au-dessus du mien et que je n’ai pas trop envie de traduire je me contenterai de laisser mes pensées ici pour les personnes intéressées.

    Bonne fin de week-end 😉

  8. Felsfa says:

    Je suis avec intérêt les blogs de certains bloggueurs de Microsoft France et j’en suis ravi, vraiment. D’abord, quelle modestie !! c’est toujours en douceurs qu’ils y go et ca fait plaisir Ensuite, quel professionnalisme !!ça laisse rêver. M…

  9. Oui, suite à mon récent billet sur les méthodes comparées de plusieurs classements de blogs et de blogueurs

  10. Prog says:

    Oui, suite à mon récent billet sur les méthodes comparées de plusieurs classements de blogs et de blogueurs

  11. Prog says:

    Oui, suite à mon récent billet sur les méthodes comparées de plusieurs classements de blogs et de blogueurs

  12. Ma Web presse au 4 juillet 2007 En lien avec mon billet sur la génération Y, voici un article qui fait un lien entre la génération Y, le management Y de Mc Gregor et le salarié 2.0 par Bertrand Duperrin. L’aventure de Christophe…