Wikimedia Commons et système de classement

Il y a plus d’un an, je commençais la réaction de ce billet en réaction à un billet de blog de Popo, dans lequel il nous parle de langues étrangères et du douloureux conflit avec le système de classement unilingue de Wikimedia Commons. Je n’avais pas pris le temps de le terminer ; mais puisque la question refait toujours surface, mon billet ne semble pas si périmé que ça.

Dans son billet, Popo concluait que « les catégories, c’est vraiment pourri », et pose deux questions : 1/ quand est-ce qu’on dégage tout ça pour mettre des tags ; 2/ « faire en sorte qu’on puisse catégoriser dans la langue de son choix ».

La réponse à cette double-interrogation est assez longue, et la récente arrivée de Wikidata redistribue grandement les cartes sur ce sujet. Ce billet voulait se concentrer sur la question du système de classement.

Un système de tags ?

Dès que l’on me parle de tags, je me pose toujours la question : « en quoi un système de tags est en soi une solution au problème posé ? »

La question des tags sur Wikimedia Commons n’est pas nouvelle, elle serait plutôt à ranger dans les marronniers commonistes. Périodiquement, le débat ressort comme quoi les tags sont 1/ un meilleur système d’organisation ; 2/ une solution magique à <insérer ici un problème de Wikimedia Commons>.

Pour le premier point, je reprendrai les mots de mon mentor et ami Maarten :

So we're having the tags discussion again? Pops up every once in a
while. Tags is a step backwards compared to categories. With tags there
is a relation between an object (a photo) and a word. No way of telling
what the relation is, what language the tag is, no relations between
tags etc etc. So just a word and no more metadata, but it is very easy
for the user. On the other side we have semantic web (yes, I said the S
word!). That's like an utopia we'll never reach. Categories are
somewhere in between. There's a relation between an object and a
category, we don't know what that relation is. There are relations
between categories, also we don't know what these relations are.

− Maarten, Commons-l, 20 octobre 2010

Passons au second point. J’ai souvent l’impression que l’on considère les tags comme la solution ultime aux problèmes (réels, hein) de Commons, grâce auxquels tout serait rose, rainbows and unicorns, mais sans vraiment d’explication de pourquoi.
Je pense que les gens associent au système de tags tout un tas de Bonnes Choses, comme la recherche aisée ou le multilinguisme. Peut-être parce-que ces personnes apprécient la recherche sur Flickr, et que Flickr utilise des tags ; ils voient par ailleurs que Commons a un moteur de recherche paralytique et rejettent la faute sur les catégories.

Deux problèmes orthogonaux

C’est à mon avis une erreur de ne pas dissocier le système de catégories et le système unilingue.

C’est le second que Popo critiquait (et il en montrait bien certaines limites). Or, le système des catégories n’est pas intrinsèquement unilingue : rien n’empêche techniquement de créer des catégories dans toutes les langues (eg [[Category:coëoлoн]]) ; c’est par décision éditoriale qu’on ne le fait pas, parce-que l’on a estimé que ce serait le bordel sinon.

Quand Popo suggèrait les tags comme étant la solution, je suppose qu’il voit des tags dans toutes les langues et d’avoir [cheval], [horse], [coëoлoн] etc. Mais là, on se heurte à plusieurs problèmes :

  • Comment faire l’unification ? Si je tagge en [cheval] et son pote en [coëoлoн], comment le lien est fait entre les deux notions ?
  • Comment gérer les homographes ? Le Wiktionnaire m’apprend par exemple que “kop” signifie “tasse” en danois, “tête” en néerlandais et “coup de pied” en tchèque. Comment faire le distinguo entre tout ça ?

Dans les deux cas, on se pose la question d’un système non pas nécessairement autre que les catégories, mais d’un système multilingue. (Peut-être qu’il est plus aisé de construire un système multilingue avec des tags plutôt que des catégories, mais là, je suis preneur d’arguments).

La guerre des tags n’aura pas lieu

À titre personnel, j’aime les catégories (et pas qu’un peu), j’estime comme Maarten que c’est un outil dans l’ensemble supérieur aux tags − même si largement perfectible. Une catégorie “feuille” (aucun nœuds fils) est un tag qui a le luxe de ne pas être quelque-chose d’isolé. D’ailleurs, on sait comment forcer une catégorie à ne pas être divisée (et on ne se prive pas de le faire) : en utilisant des modèles qui les transcluent.

Par ailleurs, on peut déjà voir une large population des modèles comme des tags plus ou moins exploités − toute la mouvance {{Creator}} & {{Institution}}, plus tous les tags multilingues à la {{Technique}}, créés à des fins d’internationalisation mais qui au final sont aussi une structuration tag-esque.

Un vrai désavantage des catégories par rapport aux tags, c’est la complexité des croisements, extrêmement coûteux de par la structure même des catégories, les rendant en pratique quasi inutilisables (car oui, je reconnais bien volontiers que CatScan n’est pas un outil accessible au commun des mortels − et ce d’autant plus quand il faut le laisser tourner pendant trois plombes). Wikimedia Deutschland a une offre de contrat pour corriger ce problème d’intersections de catégories depuis des lustres.

Cela dit, il y a des critiques très valides du système des catégories − voir notamment [[User:NeilK/Categories_considered_harmful]] (qui me donne beaucoup à réfléchir) et qui notamment reproche aux catégories d’être archaïques et inutiles pour le gars de passage, ce que l’on peut discuter. Là où je suis entièrement d’accord avec Neil, c’est lorsqu’il dit que les catégories ne sont pas un bon système de recherche. Tout à fait, c’est un système d’organisation, mais qui selon moi est une excellente base pour alimenter un bon système de recherche (mais je peux me tromper naturellement) − le lecteur intéressé pourra consulter sur ce sujet cette page de réflexion sur l’avenir de la recherche sur Wikimedia Commons.

Bref, ma conclusion est que faire le procès des catégories sur le chef d’accusation de l’unilinguisme, c’est confondre deux choses.

Avance-rapide en 2013 : Wikidata révolutionne le WikiVerse. Ils se pose en flamboyant exemple de projet multilingue que l’on peut intégralement utiliser dans sa langue − on peut ajouter des déclarations dans sa langue, pourvu qu’elles aient été traduites, en évitant l’écueil des homographes. Il permet d’entrevoir une Wikimedia Commons réellement multilingue, ainsi qu’un système de catégories sous stéroïdes. Ce projet porte les espoirs fous de tous (un peu comme OmegaWiki en son temps #OhWait).

Cette entrée a été écrite par Jean-Frédéric et publiée le 26 avril 2013 à 11:14. Elle est classée dans Commons et taguée , . Bookmarquez ce permalien. Suivre les commentaires de cet article par RSS.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :