Post commitum animal triste : Identification de documents web

Cette vidéo de Gary Spencer pose la question de ce qui pourrait permettre l'adoption du format HTML au lieu du PDF pour la publication d'articles scientifiques.

Je suis d'accord avec l'idée de ce déplacement dans les pratiques, comme j'en ai déjà parlé par exemple ici. La publication en HTML présente de multiples avantages (niveaux de lecture, interactions possibles, ...).

Elle souffre cependant du fait que la plupart du temps, il faut être connecté pour y accéder, au contraire du PDF qui peut s'envoyer par mail ou se stocker sur le disque dur.

Bien sûr, il est possible d'enregistrer un article en ligne, et dans ce cas le nagivateur sera ravi de stocker sur le disque dur tous les fichiers nécessaires à sa visualisation hors-ligne. L'article sera alors visible par exemple à une adresse du type file://....

Cependant, cette pratique possible pose toutefois un sérieux problème. En effet, on constate la mise en place de plateformes d'annotations de documents web. Je viens de lire par exemple cet article sur le dévéloppement d'hypothes.is¹

Les standards d'annotation, notamment Open Annotation, se basent sur des graphes RDF pour stocker ces annotations. Les documents annotés y sont donc référencés par leur URI. Cela signigie que si le document "déménage", qu'il change d'URI, alors les annotations n'y sont plus accrochées.

Donc si j'annote un document que j'ai ramené sur mon disque dur, avec une URI comme file:///mon/repertoire/articles/foo.html, les annotations référenceront cette URI et non celle du document d'origine.

Cela vient du fait que le document est actuellement identifié par sa localisation logique (nom de domaine, hôte, chemin, ...). Il conviendrait donc de séparer l'identification du document de cette localisation logique.

Dans cette optique, on peut penser au DOI, pour Digital Objet Identifier. Il s'agit d'affecter à un document un identifiant, le service DOI permettant de faire le mapping de cet identifiant vers son adresse logique.

C'est un bon début, mais c'est très centralisé tout de même². Et surtout, pourquoi n'avoir qu'une seule adresse logique possible pour un document, alors que le coût de copie est nul ?

Imaginons que chacun puisse choisir le ou les serveurs de résolution d'un identifiant de document pour retrouver une adresse logique parmi plusieurs possibles à laquelle le trouver. A la manière des DNS, chacun peut choisir auquel s'adresser en priorité.

Imaginons maintenant que j'ai un de ces serveurs sur ma machine, et qu'il est au courant quand je télécharge un document HTML. Ce serveur peut donc me servir en priorité le document en question à partir de la version qui est sur ma machine, quand je le cherche par son identifiant en utilisant dans mon navigateur un nouveau schème d'URI comme docid://123.456afd56.

Imaginons maintenant que le document contient son identifiant. Les outils d'annotations peuvent le prendre en compte pour stocker des annotations utilisant le schème d'URI docid:// plutôt que la localisation logique en http://....

A ce moment-là, il devient possible d'avoir des documents en local tout en permettant des annotations du document qui ne dépendent pas de sa localisation logique.

On retrouve un aspect de la publication physique: même si on ne lit pas tous le même livre physique, il s'agit tout de même du même texte. Identifier un document web par son adresse logique, c'est comme s'il n'y avait qu'un seul exemplaire d'un livre et qu'à chaque fois qu'on voulait le lire, on en faisait des photocopies dans le cache du navigateur. Au contraire, on peut très bien avoir plusieurs sources du même document, comme on peut emprunter le même livre dans deux bibliothèques différentes.

Il ne reste plus qu'à soumettre une RFC à l'IETF pour mettre en place un tel système :-)

¹ Au passage, j'en suis fort marri puisque je souhaite également développer un serveur d'annotations, en complément de Stog qui permet d'écrire des articles en HTML.

² Il semble cependant possible de mettre en place son propre serveur.