Post commitum animal triste : Publier et braconner

Quelques mots pour accompagner la présentation "Publier pour le web et braconner" que j'ai faite au Comité Scientifique d'Alea le 31 janvier.

Je me place dans le cadre de la recherche et la publication en maths/info, mais plusieurs idées peuvent sans doute se transposer à d'autres disciplines.

Publication papier sur le web

Tout d'abord, le mode de publication actuel reste orienté "papier" (le format des articles est principalement le PDF), et calqué sur des parutions de journaux à la mode du 20^ème siècle: revue par les pairs avant publication, périodicité imposée, format imposé, ...

Le mode de publication actuel pose tout un tas de problèmes connus, je renvoie à cette conférence de Jean-Claude Guédon qui en donne une bonnée idée.

Enfin, on peut dire qu'il s'agit de publier sur le web, et non pour le web: l'utilisation de documents PDF comme support n'est qu'un calquage des anciennes pratiques, simple numérisation des processus antérieurs. Les nouvelles possibilités offertes par le web et les documents numériques ne sont pas utilisées.

Publier pour le web

Rappel

Le web est notamment basé sur des formats de documents standardisés par le W3C (comme HTML, CSS, RDF, ...) et sur la notion de liens entre ces documents.

Sur le web, chacun peut publier, c'est-à-dire rendre publics des documents, pour peu qu'il puisse les déposer sur un serveur visible à tous à une adresse (url) donnée.

Un article pour le web, notamment au format HTML, peut être bien plus riche qu'une simple transposition du papier: on peut y inclure, en plus du texte, des vidéos, des animations, des sons, de l'interaction, ... A titre d'exemple, on pourra consulter cette page

Il est également possible de fournir plusieurs niveaux de lecture, par exemple:

afficher ou masquer une preuve à l'aide d'un bouton, comme dans cet article,
afficher ou masquer des détails comme dans cet article.

Il s'agit là d'exemples simples, mais l'on peut imaginer des types d'affichages encore plus variés.

On peut également référencer un bloc précis d'un document (c'est-à-dire un noeud précis dans l'arbre du document HTML): Par exemple nous pouvons référencer une équation précise. Nous verrons plus loin l'importance de cette possibilité.

Le web sémantique

Le web sémantique désigne le fait de décrire des relations entre des ressources afin de donner du sens à un ensemble de ressources.

Une ressource est référencée par un identifiant, qui est (en gros) une URL comme on en utilise dans les navigateurs. Ainsi, l'URL http://open-alea.net/articles/1 identifie un article sur le site http://open-alea.net. Idéalement, naviguer à l'adresse identifiant l'article permet d'y accéder.

Pour abréger la notation des ressources, on utilise souvent un namespace, par exemple si l'on définit oa comme namespace pour http://open-alea.net/, on pourra noter l'adresse de l'article ci-dessus par oa:articles/1.

Les relations entre ressources sont décrites par des triplets (sujet, prédicat, objet). Par exemple:

oa:articles/1  ns:hasAuthor   http://chauvin.perso.math.cnrs.fr/
oa:articles/1  ns:hasAuthor   http://pouyanne.perso.math.cnrs.fr/
oa:articles/1  ns:hasTitle   "Uncommon suffix tries"

Le prédicat (la relation entre le sujet et l'objet) est également exprimée par un identifiant de ressource (une url), qui peut également être notée en abrégée. L'objet peut être une ressource ou bien une chaîne ou un entier¹.

Les trois triplets ci-dessus indiquent donc que l'article en question a deux auteurs, dont on donne des identifiants, ainsi qu'un titre "Uncommon suffix tries".

Un ensemble de triplets décrit donc un graphe de relations, appelé graphe RDF, pour Ressource Description Framework. A l'aide de triplets comme ceux ci-dessus, on peut obtenir un graphe comme celui-ci:

Documents structurés

Les documents HTML ont une structure arborescente: chaque noeud possède des sous-noeuds, etc., ce qui permet de refléter notamment la structure usuelle des documents: section, sous-section, ...

Il est possible d'attribuer un identifiant à certains noeuds, avec l'attribut id. Exemple:

<html>
  ...
  <div class="theorem" id="theorem1">
    [définition du théorème 1]
  </div>
  ...
  <div class="proof" id="proof5">
    ...
  </div>
  ...
</html>

Si le document ci-dessus est à l'adresse oa:/articles/1, il devient possible de référencer le théorème 1 par oa:/articles/1#theorem1, c'est-à-dire l'adresse de l'article suivie de # puis de l'identifiant du noeud dans le document.

Avec cette possibilité, nous pouvons donc définir des triplets décrivant des relations non plus seulement entre documents, mais entre noeuds de documents, pour signifier par exemple qu'un bloc d'un article est une preuve d'une proposition de cet article, ou qu'une preuve d'un article utilise un théorème d'un autre article. On peut voir ce genre de relations sur le graphe RDF suivant:

Graphe RDF avec relations entre noeuds de documents

Avec un tel graphe, il devient possible de poser des questions comme:

Où est appliqué le théorème oa:articles/1#theorem1 ?
Où sont exprimés des désaccords avec tel article ?
Quels articles s'appuient sur les résultats de tel article ?
Où sont les reviews de cet article, et qui en sont les auteurs ?
...

Braconner

Dans cette partie, je soutiens que, pour faire face à la stratégie gestionnaire qui occupe le territoire de la recherche, il convient d'adopter une tactique pour changer la façon dont la recherche est organisée: s'affranchir des éditeurs commerciaux d'une part, profiter des nouvelles possibilités du web d'autre part. Et plutôt que d'essayer de convaincre par des mots, je pense qu'il faut commencer petit pour montrer ce qu'il est possible de faire, afin de susciter l'adoption par un plus grand nombre.

Proposition

Je propose donc la création d'un site web pour une petite communauté de chercheurs, en guise de prototype en quelque sorte.

Ce site web permettrait de publier des documents (articles de recherches, review, articles de vulgarisation, cours, ...) mais également le graphe RDF représentant les liens entre ces documents et ou des éléments de ces documents (preuves, propositions, ...), ainsi que des liens vers des documents et autres ressources extérieures au site (articles ailleurs, etc.).

Ce site serait une plateforme de publication pour le web, et du type open access.

Par ailleurs, depuis plusieurs années, le travail de mise en forme est fait par les chercheurs, notamment via l'utilisation largement répandue de LaTeX. Auparavant, ce travail n'était pas fait par les chercheurs. Au besoin, et selon les capacités et les intérêts de chacun, il faut prévoir un accompagnement pour ce nouveau mode de publication, tout en développant des outils facilitant l'écriture pour le web (~HTML + RDF). C'est le travail que j'ai commencé à titre personnel dans Stog-rdf, qui permet, dans un seul document, d'indiquer également des liens avec d'autres documents.

De plus, en imaginant que plusieurs sites de ce genre essaiment, avec leurs graphes respectifs, il devient possible de fusionner les graphes des différents sites pour les utiliser dans un moteur de recherche utilisant les relations déclarées entre (les éléments) d'articles.

Plusieurs questions restent à discuter:

Quid de la pérennité ? Ce type de publication à vocation durable pour le web sémantique nécessite que les url des documents ne changent pas (conservation du nom de domaine, de l'organisation des ressources publiées, ...),
Quid et de la preuve d'antériorité ? Il serait possible de déposer les articles de recherche sur les plateformes ArXiv ou Hal, afin de conserver une preuve d'antériorité,
Revue par les pairs ? On peut imaginer plusieurs politiques. S'appuyer par exemple sur episciences.org pour adosser un système de reviewing "classique" avec editorial board et referees. On peut également penser à une publication avant revue par les pairs, dans un état "non revu". La communauté se saisit alors de cet article et des membres en font des reviews publiées elle aussi, avec des liens entre les reviews et l'article. Après ce retour et des modifications, l'article peut être publié dans un état définitif. On peut voir dans cette deuxième approche une façon pour la communauté de prendre soin d'elle.
Quid des liens avec les réseaux sociaux, puisque la discussion scientifique peut également prendre d'autres formes que des articles formels; permettre de citer facilement des documents ou parties de documents, afin de pouvoir chercher les commentaires et discussions associées à un article par exemple, rejoint la question des annotations en général.

Notes

¹ Il y a d'autres possibilités d'expressions mais nous nous en tiendrons là pour exprimer les principes utiles pour la suite. Pour plus de détails, on pourra consulter cette introduction à RDF.