Google vient de mettre en place un annuaire basé
sur les sites inscrits dans l'Open Directory (http://www.dmoz.org/).
Jusque là, rien de très original. Mais,
lorsqu'on navigue dans les rubriques de l'annuaire,
on s'aperçoit que les sites proposés ne
sont plus classés grâce au sempiternel
ordre alphabétique si prisés par les Yahoo!,
Nomade et autre annuaire de Voila. Le classement, à
l'intérieur de chaque catégorie, se fait
à l'indice de popularité, c'est-à-dire
au nombre de liens pointant sur le Web vers les sites
en question. Ce système, s'il a quelques défauts
(il pénalise notamment fortement les sites récents
et la popularité n'est pas obligatoirement synonyme
de pertinence), a néanmoins quelques avantages
:
il est beaucoup moins injuste que le classement
alphabétique, puisque un site nommé
zyrconium, très pertinent, a la possibilité
d'être classé devant le site abc-tartempion,
peu pertinent, qui sera peut-être proposé,
pour sa part, en fin de liste.
il résoud le problème des sites acceptés
depuis des années par l'annuaire mais qui
sont devenus, par la force des ans, obsolètes
voire dépassés et qui attirent moins
les demandes de liens.
il est difficilement spammable.
le classement de pertinence peut-être remis
à jour quasiment en temps réel puisque
le calcul sur l'indice de popularité évolue
tout le temps.
il permet à l'annuaire de mieux envisager
son avenir, car certaines rubriques des outils "classiques"
commencent à être difficilement lisibles,
à force d'accepter des sites en masse. Le
problème est en effet d'actualité
pour les annuaires aujourd'hui. Si une rubrique
contient déjà 50 sites (ce qui est
déjà énorme et difficilement
consultable), un 51ième site risque d'être
refusé alors qu'il est peut-être plus
pertinent que vingt sites de la rubrique, mais ceux-ci
avaient tout simplement été accepté
il y a plusieurs années, alors que le web
francophone n'était pas ce qu'il est aujourd'hui.
Une innovation de la part de Google à découvrir
de toute urgence, en tout cas !
Nous avons demandé aux responsables des principaux
annuaires francophones ce qu'ils pensaient de cette
innovation. A chacun, nous avons posé les deux
questions suivantes :
Que pensez-vous de cette innovation de Google ?
Comment pensez-vous gérer l'augmentation
du nombre de sites sur votre annuaire dans l'avenir
?
Voici
leur témoignage :
Laurent
Souloumiac, Armelle Herouard et Marianne
Logelin (Voila).
Que pensez-vous
de cette innovation de Google ?
C'est astucieux et logique, de plus c'est
cohérent avec la démarche
qu'il on adoptée pour leur moteur.
Peut-être est-ce un peu déstabilisant
pour l'utilisateur habitué à
l'ordre alphabétique, il faut voir
à l'usage.
Nous y mettrons quand même quelques
bémols : les catégories deviennent
de plus en plus précises, chez l'Open
Directory/Google comme chez nous. Ceci pourrait
limiter un peu la portée de leur
nouvelle méthode de classement car
celle-ci ne s'applique qu'aux sites et non
aux catégories. Par exemple sous
"Séries TV" nous avons (ainsi que
Google) un certain nombre de catégories
qui sont des noms de séries : Ally
Mc Beal, Buffy, Friends... qui sont toujours
classées, elles par ordre alphabétique
et non par popularité. C'est donc
intéressant, mais il fait le remettre
à sa juste mesure : il ne faut pas
oublier que la consultation des sites via
la navigation dans la nomenclature ne représente
qu'une faible proportion par rapport à
la recherche par mots-clés.
Note d'Olivier Andrieu
: Yahoo! France et Nomade indiquent, pour
leur part, qu'il y a autant d'internautes
qui naviguent au travers de l'arborescence
de l'annuaire en suivant les liens proposés
(i.e. qui naviguent de rubrique en sous-rubrique)
que d'utilisateurs qui saisissent des requêtes
sous forme de mots clés sur leurs
outils respectifs.
Comment pensez-vous
gérer l'augmentation du nombre de
sites sur le Guide de Voila dans l'avenir
?
Nous menons en continu des actions pour
ne pas laisser grossir notre base de manière
exponentielle, mais au contraire proposer
des sites fiables et de qualité :
ainsi la moitié des sites de la base
(ceux des thèmes les plus consultés)
on été revisités et
éventuellement supprimés ou
réindexés au cours des derniers
mois. D'ailleurs, on ne parle plus de l'annuaire
mais du Guide de Voila. D'autre part, la
nomenclature évolue chaque semaine
pour s'adapter au mieux aux sites qu'elle
sert à classer. Nous avons aujourd'hui
7200 catégories dans notre annuaire.
Nous travaillons enfin nous-même à
des solutions de mise en avant des sites
de qualité ou les plus consultés
dans les catégories.
Philippe
Guillanton (Yahoo! France).
Que pensez-vous
de cette innovation de Google ?
Nous pensons que c'est une innovation intéressante
dans la mesure où on peut appliquer
cette indexation sur certaines thématiques
qui le nécessitent. D'autres thématiques
en revanche ne peuvent pas être indexée
parce que l'information se doit d'être
le plus exhaustive possible. Par expérience
on sait que lors de recherches, les internautes
ne consultent pas toute la liste de sites
proposés mais s'arrêtent en
général à la fenêtre
visible sur leur écran, et ceci quelque
soit la pertinence du classement. Cette
solution peut être une piste de réponse
en permettant un certain dynamisme et une
base de données moins statique. Le
bémol que nous souhaitons apporter
à ce classement est que, comme vous
l'avez vous-même souligné,
popularité n'est pas forcément
synonyme de pertinence.
Comment pensez-vous
gérer l'augmentation du nombre de
sites sur Yahoo! France dans l'avenir ?
Ce classement peut effectivement être
un des moyens de faire face au volume, ou
en tout cas de permettre d'avoir une base
de données plus dynamique un des
moyens de faire face à cette augmentation
du nombre de sites est de développer
en permanence de nouvelles sous-catégories
comme nous le mentionnons un peu plus bas.
Rappelons que la vocation d'un annuaire
est aussi de pouvoir offrir une information
la plus large possible. Nous essayons de
combattre cet effet de masse par une ventilation
des sites par catégories que nous
essayons d'affiner toujours plus. Si une
rubrique contient déjà 50
sites, la position de Yahoo! est de rajouter
un 51ème s'il est pertinent. Si on
"épure" l'annuaire de certains sites,
d'abord sur quelle base le faire, on risque
de très vite appauvrir le site et
d'arriver à ne proposer qu'un "best-of".
Arnaud
Defrenes (Directeur Technique de Nomade.fr).
Que pensez-vous
de cette innovation de Google ?
Ce type de classement en surtout utile pour
un crawler qui ne dispose pas de documentalistes
pour classer l'information. Ces moteurs
référencent en outre de nombreuses
pages inutiles (taux de déchet) qu'il
faut déclasser pour une meilleure
pertinence. L'analyse, nombre de liens qui
pointent vers une page = popularité
du site est une aide intéressante
dans ce contexte et faute de mieux, c'est
à dire de vraiment mesurer la popularité
du site et faute de pouvoir en mesurer l'interêt.
Le nombre des liens sera par ailleurs plus
ou moins bien mesuré en fonction
de la taille de l'index du crawler (s'il
ne possède que 10% du web par exemple,
il s'agit des liens qui apparaissent dans
ces 10%).
Le système est effectivement difficilement
spammable, c'est un avantage. En termes
de mise à jour de l'information,
les calculs à effectuer sont importants
et l'on peut s'interroger sur la fréquence
réelle d'actualisation, quoiqu'il
en soit cela pose un problème aux
sites recents puisque ces derniers n'ont
pas encore beaucoup de références
sur le Web.
Comment pensez-vous
gérer l'augmentation du nombre de
sites sur Nomade dans l'avenir ?
Pour assurer la navigation au sein d'un
nombre croissant de pages dans l'annuaire,
l'approche actuelle de Nomade consiste à
adapter la structure de l'arborescence au
fur et à mesure, en s'assurant que
les catégories ne contiennent pas
un nombre trop important de sites, cette
approche a des limites et nous n'excluons
pas d'utiliser d'autres méthodes
de classement , mais pas obligatoirement
celle-ci puisque Nomade dispose de nombreuses
informations qualitatives sur les sites.
(d'ailleurs, dans certaines catégories
les sites peuvent être classé
par région/pays/nature etc...). Nous
travaillons par ailleurs sur la pertinence
du moteur de recherche mot-clé au
sein de l'annuaire, qui renvoie une réponse
adaptée à la question de l'utilisateur.
Pour cela, Nomade s'est doté d'une
nouvelle technologie d'indexation avec un
moteur sémantique, "Excalibur", qui
sera disponible aux utilisateurs prochainement.