Serveur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Les problèmes liés à l'instabilité du Web.
Comment conserver.

Michel Fingerhut
paru dans Intégrer les ressources d'Internet dans la collection,
collection La Boîte à outils, volume n° 11, Presses de l'enssib, décembre 2000
ISBN 2-910227-33-2 © Enssib 2000

Toute reproduction à des fins autres que strictement personnelles et notamment toute reproduction destinée à une publication électronique, papier ou audio, destinée à des tiers est strictement prohibée et constitutive du délit de contrefaçon.

Né, lui, il y a quelque 30 ans. Estimés à quelque 56 millions, en juillet 1999 (par MIDS), et pour quelque 201 millions d’utilisateurs en septembre 1999 (selon Nua Internet Surveys), nombres qui s’accroîssent quotidiennement et rapidement : selon Alexander Ntoko, de l’ITU (International Telecommunication Union), l’Internet double de taille tous les 11 mois, et le Web tous les 53 jours… http pour le Web, TELNET pour la connexion à des programmes distants, ftp pour le transfert de fichiers, GOPHER, wais, z30.50… pour la recherche documentaire, rtsp pour le multimédia en flux, smtp pour le courrier électronique, nfs pour le partage de fichiers en réseau… ascii, postscript, pdf, rtf… pour le texte, html pour l’hypertexte, bmp, gif, jpeg, tiff… pour l’image, aiff, mid, mp3, ram, wav… pour le son… Parmi les hébergeurs de site les plus connus actuellement : altern.org, multimania.fr, geocities.com… Parmi les fournisseurs gratuits de boîtes à lettres, on trouve tout d’abord les hébergeurs (gratuits, voir ci-dessus), mais aussi des services tels que hotmail.com Le protocole z39.50 permet d’offrir une consultation simultanée de catalogues distincts. Ordinateur fournissant un accès en réseau à un ou plusieurs services. Un domaine, dans ce contexte, est un ensemble d’ordinateurs appartenant en général à un organisme. Ainsi, dans le domaine bnf.fr, on peut trouver les ordinateurs www.bnf.fr, opale02.bnf.fr… Toutes les composantes du nom du domaine comptent : elysee.fr n’est pas le même domaine que elysee.org. Le DNS (Distributed Name Service) est un annuaire international, faisant partie intégrale de l’Internet, et y répertoriant les noms des ordinateurs. Ceux-ci y sont associés à des identificateurs numériques, appelés numéros IP (IP = Internet Protocol), et permettant aux logiciels d’y accéder (le numéro IP du serveur catalogue.bnf.fr est actuellement le 194.199.5.30. Lorsqu’un domaine est résilié de l’Internet, tous les ordinateurs qui en faisaient partie n’y sont plus répertoriés. Mot désignant un monde (informatique) idéal dans lequel on pourrait communiquer sur le Web à égalité, que l’on utilise un Mac ou un PC, Netscape ou Internet Explorer Matériel reliant un segment du réseau à un ou plusieurs autres segments. Selon une étude de Brewster Kahle (1977), la demi-durée de vie d’une url est de 44 jours. National Bibliography Numbers, identifiants définis par les bibliothèques nationales, en général pour les documents ne possédant pas d’isbn ou issn. Depuis 1998, c’est IANA (Internet Assigned Numbers Authority [http://www.iana.org/]) dont le statut est en évolution depuis le désengagement du gouvernement américain de la gestion des noms de domaine et protocoles de l’Internet. Un forum de discussions (en anglais) d’utilisateurs de Perl en bibliothèque existe d’ailleurs sur l’Internet. Il s’intitule perl4lib. Parmi les réalisations de ses utilisateurs, mises en accès libre : des outils pour le traitement du format marc, des passerelles Web – Z39.30, etc. Pour en consulter les archives ou s’y abonner [http://cwww.wims.edu/Perl4Lib/] Une liste de logiciels de ce type pour Windows 95/98 est disponible à l’adresse [http://winfiles.cnet.com/apps/98/offline.html] Auquel participe la BnF. Pour plus de renseignements [http://www.konbib.nl/coop/nedlib/] Décrit dans un document datant de mai 1999 [http://ftp.ccsds.org/ccsds/documents/pdf/CCSDS-650.0-R-1.pdf]

1. Le monde changeant de l’Internet

L’émergence du Web au cours des années 90 a été le moteur principal de la prise de conscience par le grand public de l’existence de l’Internet¹ et de sa capacité à offrir une grande variété de modes de communication. Certains d’entre eux préexistaient au Web, tels le courrier électronique (mél., email…) ou les forums publics de discussion (Usenet, news…), mais ceux-ci étaient surtout utilisés par des professionnels : ils nécessitaient tout d’abord un accès au réseau, disponible presque exclusivement dans les milieux universitaires et professionnels, ainsi qu’une familiarité, voire une compétence technique certaine, avec les outils informatiques.

L’apparition de l’hypertexte comme point d’entrée vers cette immensité d’ordinateurs reliés entre eux² et comme interface masquant la multiplicité des protocoles³ et des formats⁴ a permis à des amateurs ou curieux, non-« initiés », d’accéder à ces ressources variées : butineurs (ou navigateurs, browsers) gratuits au départ (Mosaic, le père de tous), auquels se sont rajoutés au fil du temps des extensions pour le traitement du courrier électronique, l’accès aux forums publics, l’écoute en ligne de la musique, le visionnage de clips vidéo, l’interactivité…

Durant les premières années qui ont suivi la naissance du Web, l’accès s’y faisait principalement sur le lieu de travail, ou alors par l’entremise de celui-ci (par modem, de chez soi vers son lieu de travail). Or, l’intérêt accru du grand public et les intérêts économiques des fournisseurs d’accès professionnels ont encouragé ces derniers à diversifier leur offre vers les particuliers, leur permettant ainsi de dissocier leur connexion privée de celle fournie par leur employeur.

À son tour, cet intérêt croissant a suscité le foisonnement des fournisseurs d’accès, la concurrence et la baisse des tarifs, et donc une connectivité accrue de la part de tous les publics, professionnel et particuliers vers le courrier électronique et les sites Web, au départ surtout institutionnels ou professionnels.

Puis, la banalisation des outils permettant de créer de plus en plus facilement des pages Web (on peut le faire même avec des outils de traitement de texte, tels Word de Microsoft), puis des services (bases de données, catalogues…), toute personne ou entreprise de quelque taille que ce soit ayant accès à l’Internet peut dorénavant créer son propre site, que ce soit chez sur son lieu de travail (si l’employeur l’autorise ou le tolère), chez des hébergeurs commerciaux ou gratuits⁵, voire chez soi, pour peu que l’on y possède une liaison permanente (par câble, Numeris, ADSL…).

L’internaute possède dorénavant sa propre adresse électronique, qui n’est pas nécessairement celle qui lui est attribuée par le fournisseur d’accès, mais souvent hébergée, elle aussi, chez un fournisseur de boîtes à lettres gratuit⁶. Il peut ainsi surfer d’un fournisseur à l’autre, sans avoir à changer à chaque fois la domiciliation de sa boîte à lettres électronique. Enfin, pour éviter d’avoir aussi à changer l’adresse de son site, il obtiendra un « nom de domaine » indépendant et personnalisé (par exemple : www.michel-dupont.fr) qu’il conservera tout en changeant de fournisseur d’accès ou d’hébergeur.

On le voit : la multiplication de l’offre de connectivité a causé un accroissement très rapide de publication sur le Web par des particuliers et des entreprises ; en ce qui nous concerne, des bibliothèques de plus en plus nombreuses mettent leur catalogue en réseau, indépendamment ou en commun avec d’autres bibliothèques⁷.

La corruption de supports fragiles d’accès souvent restreint obligeant à procéder à des transferts sur des supports numériques, un nombre croissant de bibliothèques dites numériques offrent un accès par réseau à des collections de plus en plus importantes de documents, parfois intégrés à leurs catalogues. La conservation numérique en ligne, commence à devenir une réalité, avec, comme corollaire, une diffusion accrue.

En contrepartie et paradoxalement, la pérennité décroît : les particuliers « bougent », les institutions évoluent, les supports numériques se dégradent bien plus rapidement que le papier, les normes de codage changent et varient d’une plate-forme à l’autre. La croissance de l’offre en ligne s’accompagne trop souvent d’un raccourcissement de sa durée de vie (ou d’accès) ; comme l’a dit Stewart Brand lors d’une conférence récente (dont le lien sur l’Internet a disparu…) : « les archéologues du futur retrouveront notre vaisselle mais pas nos courriers électroniques ».

Nous allons examiner en détail les conséquences de ces tendances et les tentatives d’en réduire les effets pervers.

2. Les instabilités du Web

Une ressource (document textuel, sonore, composite… - ou un service – base de données, catalogue, annuaire…) est accessible sur le Web au moyen d’un lien hypertextuel : à une partie d’un texte (décrivant en général cette ressource) est attaché un code, appelé url (Uniform Ressource Locator), servant à localiser la ressource en question. Prenons, par exemple, celui de la recherche combinée dans le catalogue BN-Opale Plus de la Bibliothèque nationale :

http://catalogue.bnf.fr/jsp/recherche_combinee.jsp

La partie précédant le signe « :// » indique le protocole, ou mode de connexion, utilisé pour accéder à ce service. Dans la plupart des cas qui nous concernent, ce sera le protocole http, mais l’on trouve encore beaucoup de catalogues fonctionnant sous le protocole telnet (avec, par exemple, une adresse de la forme TELNET://opale02.bnf.fr), ainsi que des ressources documentaires utilisant des protocoles tout à fait différents (voir note 3 ci-dessus).

La partie suivante de l’adresse, comprise entre le « // » et le « / » suivant, catalogue.bnf.fr, est le nom d’un serveur⁸ appelé catalogue dans le domaine⁹ bnf.fr. Comme on le voit, il n’est pas nécessaire qu’il possède un nom commençant par www : c’était une convention utilisée durant les premières années du Web mais avec la multiplication des serveurs dans un même organisme, il a fallu diversifier les noms. Il se peut aussi qu’un même ordinateur offre plusieurs types de services, et donc plusieurs protocoles : http://un.exemple.fr pour le Web, ftp://un.exemple.fr pour le transfert de fichiers, etc.

La partie suivant le premier « / » isolé indique le chemin dans l’ordinateur vers la ressource souhaitée. L’url est donc une adresse, un moyen de la localiser sur l’Internet, puis sur un serveur. Or les adresses pouvant changer, ce moyen d’identification n’est pas stable. C’est ainsi le cas du lien hypertextuel indiqué dans la rubrique « Informations professionnelles » du serveur de la BnF censé mener vers « la conservation des documents » : lorsque l’on veut s’y rendre, il renvoie un message d’erreur. Quelles en sont les causes possibles ?

2.1. Les adresses qui changent

Toutes les composantes de l’url sont sujettes à obsolescence. Les raisons les plus communes en sont :

2.1.1. Disparitions de domaines ou d’ordinateurs

Le domaine peut tout simplement disparaître de l’Internet, phénomène plus courant lorsqu’il appartient à un particulier ou un petit organisme. Le butineur affichera alors une erreur indiquant qu’ « il ne peut trouver le serveur dans le DNS¹⁰ ».

L’ordinateur peut avoir disparu du domaine ; si ce dernier appartient, par exemple, à un organisme important, il se peut qu’une réorganisation ait causé la fermeture d’un département dont dépendait cet ordinateur, impliquant sa mise hors-service.

2.1.2. Renommages de domaines ou d’ordinateurs

Ce phénomène est bien plus commun encore que le précédent. Ainsi le Centre Pompidou possédait le domaine cnac-gp.fr (reflétant sa raison sociale complète, Centre National d’Art et de Culture Georges Pompidou), mais il vient de le changer en centrepompidou.fr (pour permettre de le trouver plus facilement).

Des ordinateurs peuvent changer de nom, ou des services peuvent migrer d’un ordinateur à un autre. Ainsi, le catalogue de la Bibliothèque du Congrès, aux Etats-Unis, se trouvait sur lcweb.loc.gov mais est dorénavant (du moins au moment de la rédaction de ce texte) accessible sur le serveur catalog.loc.gov.

2.1.3. Disparition ou changement du protocole

Quant bien même l’ordinateur (et son domaine) peuvent rester stables, il se peut qu’un service offert sur cet ordinateur change de protocole ou soit supprimé : ainsi, gopher est un protocole qui a presque tout à fait disparu au profit de Http, il est donc fort probable qu’une adresse du type gopher://notre.exemple.fr ne soit plus valable, sans que l’on puisse a priori déterminer si http://notre.exemple.fr l’est ou non.

2.1.4. Modification de l’adresse du document ou du service sur l’ordinateur

La partie qui suit le premier « / » isolé peut changer, suite à des modifications ou réorganisations de fichiers ou d’applications sur le serveur ; le document ou le service existe bien, mais il est ailleurs. Dans ce cas, le butineur affichera un message d’erreur du genre « document inexistant » (ou, plus succinctement, « 404 Not Found »), indiquant qu’il a bien trouvé le serveur, mais pas le document ou le service requis.

2.1.5. Disparition du document ou du service

La disparition, intentionnelle ou non (un fichier effacé par mégarde, par exemple), se manifeste par le même message d’erreur, « document inexistant ».

2.2. Les modifications des documents

Si l’url ressemble, par certains aspects – le moyen de localiser un document – à la cote d’un livre dans une bibliothèque, elle en diffère par une caractéristique très importante : la même url peut référencer un document qui change d’une consultation à l’autre, ce qui n’est pas le cas pour un livre associé à une cote. En effet, le contenu du document référencé peut être modifié sans que l’on ait à changer son url, notamment s’il s’agit d’un fichier sur un ordinateur : on peut éditer le fichier sans en changer son nom.

De nombreuses raisons peuvent y contribuer : corrections d’erreurs, mises à jour... En outre, un document référencé par une seule url peut être constitué de plusieurs composantes : des images incluses, des sous-documents indépendants et disposés les uns à côté des autres, appelés cadres (frames). Il peut aussi n’être que l’adresse d’une table des matières d’un document conséquent, dont les chapitres sont des ressources indépendantes, elles-même constituées de texte, d’images, de cadres... Chaque image, chaque cadre, chaque chapitre, peut faire l’objet de modifications de contenu ou d’adresse, sans que l’adresse du document global en soit affectée.

Un autre type de modification est dû, par exemple, à l’attribution d’une url fixe à la page du numéro le plus récent d’un périodique en ligne, ou à la page d’actualités d’un site Web. Il est évident alors que le contenu changera souvent, sans que l’adresse ne change.

2.3. L’évolution des normes

Une cause souvent oubliée des difficultés d’accès peut être due, non pas à un changement quelconque à la source, sur le serveur, mais, au contraire, à une non-adéquation entre la façon dont ces contenus ont été numérisés ou codés pour leur mise en ligne et le butineur servant à les consulter.

Ainsi, le langage html a évolué depuis son émergence, et certains butineurs (plus anciens) ne peuvent afficher des documents utilisant des normes plus récentes (par exemple : les cadres). Inversement, des pages Web anciennes peuvent ne plus être affichées correctement dans un butineur récent. Il en va d’ailleurs de même avec d’autres applications encore plus répandues : un document écrit à l’aide de Word n’est pas forcément lisible à l’aide de Word… si le document est trop vieux, vient d’une autre plate-forme, ou, à l’inverse, si la version de Word utilisé pour le lire est plus ancienne que le document…

D’autre part, et contrairement aux affirmations plutôt hypocrites de certains éditeurs de logiciels, les normes ne permettent pas toujours d’obtenir une interopérabilité¹¹ œcuménique : des réalisations basées sur une même norme peuvent différer d’un constructeur de matériel ou éditeur de logiciel à l’autre – en général pour évincer l’outil du concurrent. Combien de fois n’arrive-t-il pas qu’une page Web ne peut pas s’afficher dans un navigateur tandis qu’elle l’est avec un autre, ou qu’elle s’affiche mieux dans l’un que dans l’autre ?

Il est aussi plus difficile, reconnaissons-le, de réaliser des documents qui seront lisibles sans aucune différence sur un Macintosh, un PC ou Unix, au vu de la variété des systèmes de codage des caractères d’une plate-forme à l’autre et d’un pays à l’autre.

2.4. Les coupures d’accès temporaires

Il ne faut pas oublier que certaines des erreurs dont nous avons parlé peuvent, en fait, n’être dues qu’à un problème de connectivité sur l’Internet, de nature temporaire, en général. Ce type de problème peut commencer au niveau même de l’ordinateur sur lequel on se trouve, ou affecter le réseau du fournisseur ou de l’entreprise dans laquelle on travaille – et qui est donc plus facile à identifier. Il peut, par contre, avoir lieu à un endroit quelconque sur l’Internet, affectant la connectivité vers le serveur (par exemple : panne sur le lien transatlantique, panne d’un routeur¹²…), ou, plus insidieusement, entre l’ordinateur local et l’annuaire dns (voir note 10 ci-dessus) servant à identifier et localiser le serveur.

Ce qu’il faut en retenir, c’est que l’impossibilité temporaire de joindre une ressource n’indique pas forcément sa disparition définitive. Celle-ci ne peut être avérée que statistiquement – après des échecs répétés et durables - ou par une source externe d’information (par exemple ; l’annonce de la cessation d’activité d’un organisme ou d’un service).

3. Les solutions

Face à la prolifération des liens intéressants et à leur manque de stabilité qui rend leur référencement à long terme problématique¹³, quelles sont les possibilités ? Nous allons voir les solutions à long terme et les stratégies palliatives dans le court terme.

3.1. Référencer indépendamment de l’adresse de la ressource

Plusieurs propositions de normes de référencement de ressources en réseau sont à l’étude. Elles ont pour but de permettre d’identifier et de localiser une ressource à l’aide d’un identifiant invariable pour autant que le contenu intellectuel de la ressource ne change pas, quand bien même cette dernière pourrait migrer dans un ordinateur ou d’un ordinateur à l’autre.

Les deux systèmes particulièrement intéressants pour les bibliothèques sont les URNs (Universal Resource Name) et le Handle System (handle = poignée, qui permet d’avoir prise sur). L’un comme l’autre proposent une numérotation internationale et un système de localisation des ressources. Ils en diffèrent dans les détails de la numérotation, du répertoriage et des services additionnels qu’ils proposent.

3.1.1. Les urns

Conçu par le groupe de travail de l’ingénierie de l’Internet (ietf – Internet Task Force), c’est un cadre permettant la définition de familles d’identifiants uniques (qui ne seront jamais réutilisés), persistants (bien au-delà de la durée de vie de la ressource, éventuellement), extensibles (pouvant prendre en compte quelque ressource que ce soit sur l’Internet dans un futur illimité) et pouvant intégrer des systèmes d’identification plus anciens (notamment les isbn, issn…).

En discussion depuis sa réémergence en 1996, ce cadre n’est pas encore répandu, et la plupart des exemples que l’on verra sont donc théoriques (mais réalisables). Toutefois, la bibliothèque universitaire d’Helsinki a mis en place un système expérimental utilisant le nbn¹⁴ dans le cadre du projet ambitieux Nordic Metadata, et l’a proposé au groupe de travail de l’ietf, ainsi qu’à la conférence des bibliothèques nationales européennes de 1998, qui a décidé de l’adopter. Faute de financement, les sites danois et suédois ont périclité, mais le site norvégien ([http://nwi.bibsys.no/]) existe encore. issn International, l’organisme de référencement des publications en série, a aussi réalisé un prototype fonctionnel intéressant ([http://urn.issn.org/]).

En voici quelques exemples possibles:
            un livre : urn:ISBN:0-395-36341-1
                un périodique : urn:SICI:1046-8188(199501)13:1<>1.0.TX;2-F
                un article de périodique : urn:SICI:1046-8188(199501)13:1<69:FTTHBI>2.0.TX;2-4
                un document répertorié à la bibliothèque nationale de Finlande : urn:NBN:fi-fe976238

Une urn comprend donc 3 champs, séparés par les deux premiers « : » :

Le mot-clé urn, qui sert à identifier cette entité.
Le nom du système d’identification adopté (ce champ est appelé en anglais nid, ou Namespace Identifier); dans les exemples ci-dessus : ISBN, SICI, NBN…
Ces noms sont attribués par une autorité centrale¹⁵.
L’identifiant de la ressource. La syntaxe de cet élément dépend, bien évidemment, du système adopté. Ainsi, pour le système nbn, il est proposé d’utiliser la désignation du pays (code de deux lettres), suivie d’un tiret, suivie du numéro attribué par la bibliothèque nationale de ce pays. Toutefois, il ne peut comprendre n’importe quel symbole. Ainsi, pour en faciliter la lecture, on a utilisé les « < » et « > » dans les exemples ci-dessus ; or ceux-ci étant des caractères réservés, ils apparaîtront codés « %3C » et « %3E » respectivement.
L’identifiant d’une ressource selon un système choisi est attribué lui aussi par l’autorité qui a déposé la demande d’attribution du nom du système (ou par une autorité déléguée).

Pour que les urns servent à localiser des documents, encore faut-il mettre en place un système de résolution universel, qui traduise une urn – l’identifiant du document – en une url – son adresse sur le réseau. Un tel système n’existe pas encore, mais les recommandations pour sa réalisation sont ambitieuses et intéressantes. Ainsi, au même urn (par exemple : dérivé de l’isbn d’un livre numérisé en ligne) pourraient être associées plusieurs urls (les adresses effectives de plusieurs exemplaires du même livre disponibles sur l’Internet, en un même ou différents formats, mais tous comprenant le même contenu intellectuel).

3.1.2. Le Handle System et son dérivé, le doi

Proposé par le cnri (la Corporation for National Research Initiatives américaine ®www.handle.net), le Handle System propose, lui aussi, des identifiants « éternels » pour des objets numériques ou autres ressources de l’Internet, ainsi qu’un système de résolution (permettant de les localiser).

A la différence des urns, il est bien plus avancé dans la définition des principales composantes nécessaires à sa réalisation, est utilisé dans des systèmes pilotes américains (Bibliothèque du Congrès, Agence d’information américaine, Centre d’information technique de la défense…) et propose des logiciels libres pour son utilisation, étendant les capacités d’un navigateur Web lui permettant d’utiliser ce codage. Enfin, son dérivé, le doi (Digital Object Identifier, identificateur d’objet numérique) a été proposé par des éditeurs, plutôt que des bibliothèques, pour identifier leurs documents…

Voici des exemples d’identifiant dans ce système :
            hdl:cnri.dlib/july95-arms
            hdl:berkeley.cs/1994.12.05.23.42.12;7
                hdl:10.1045/january99-bearman
                hdl:4263537/4031

Ils comprenent trois champs, comme l’urn, séparés par un « : » pour les 2 premiers, et par un « / » pour les deux suivants:

Le mot-clé hdl qui sert à identifier cette entité.
Le préfixe, ou autorité de nommage, identifie, de façon hiérarchique, l’organisme autorisé à attribuer des identifiants. Dans le premier exemple, l’autorité « parente » est le CNRI, qui délègue à DLIB (le magazine D-Lib) la possibilité de nommer des objets. Dans le second, c’est le département informatique de l’Université de Berkeley. Dans le troisième exemple, l’autorité « parente » est identifiée par « 10 », affecté au doi. Une seule autorité, parente de tous, peut attribuer les codes du premier niveau.
Les identifiants des objets sont, comme dans le cas des URNs, déterminés par l’autorité adéquate.

Ce système de numérotation ressemble quelque peu à celui de l’isbn, dans lequel chaque éditeur est identifié par un préfixe unique, auquel il est libre de rajouter un suffixe qu’il choisit pour identifier ses publications, d’où son intérêt pour le domaine de l’édition. En sus, il permet d’associer à tout identifiant des métadonnées nécessaires pour accéder à l’objet : l’adresse de l’objet - sous forme d’une url, par exemple -, et/ou de services tels que le contrôle des droits d’accès et de propriété intellectuelle de l’objet en question. Enfin, il est dans un état plus concret et avancé que les urns ; il explicite la hiérarchie des autorités de nommage, et propose des logiciels pour gérer, non seulement l’interrogation, mais l’administration de ce système : comment y rajouter ou modifier un objet, comment rajouter une autorité déléguée, etc.

Le doi (Digital Object Identifier) est une organisation, regroupant des éditeurs (Academic Press, Blackwell, Elsevier, Silver Platter, Springer Verlag, Wiley…), des associations d’éditeurs, de producteurs de musique, isbn International, etc., qui propose un système basé sur les principes ci-dessus. Celui-ci ne vise pas à répertorier toutes les ressources de l’Internet, mais plutôt des « créations de l’esprit humain » pour lesquels il existerait des droits (de propriété intellectuelle) négociables, abstraites (comme une œuvre de musique) ou physique (comme un livre). Cet aspect se manifeste dans la définition des métadonnées. Ce système, comme les autres, n’existe encore que sous forme de prototype chez certains éditeurs (tels Academic Press, qui a annoncé numéroter ainsi toutes les publications électroniques de son système ideal).

L’évolution du doi n’a pas manqué d’intéresser cisac ([http://www.cisac.org/]), la confédération internationale des sociétés d’auteurs et de compositeurs, qui a pour vocation de défendre les droits et les intérêts des auteurs dans le monde entier. Elle développe un « Système d’information commun » (cis) destiné à permettre la gestion de ces droits, et comprenant des bases reliées entre elles, servant à identifier les œuvres de manière précise et unique ainsi que leurs ayants droit. Cette réflexion a produit une proposition pour la création de nouveaux identifiants, le iswc (International Standard Work Code) puis le isan (International Standard Audiovisual Number), qui se rajoutent à l’isrc (International Standard Recording Code)… Des rapprochements sont en cours entre ses travaux et ceux du doi.

3.2. En résumé

Les méthodes d’identification présentées ci-dessus ont pour ambition de permettre d’associer à des documents ou services de l’Internet (voire à des objets plus abstraits) des identifiants permanents. Un référencement externe au moyen de ces identifiants assurerait leur stabilité, pour autant que l’autorité déléguée, chargée du référencement d’une famille d’objets, mette à jour leurs adresses en cas de changement. Ce n’est pas le cas dans le Web actuellement, où l’on référence directement l’adresse de l’objet, celle-ci n’ayant en général aucune signification particulière et souffrant d’impermanence. On est en droit d’espérer voir le référencement évoluer d’une url vers un identifiant plus significatif (issn, isbn, iswc…) et donc plus stable, avec une gestion des droits d’accès.

4. Le présent : faire avec

Pour le moment, il n’existe aucun système universellement reconnu qui permettrait le remplacement de l’utilisation des urls par des identifiants plus stables. Dans l’état des choses, il faut tenter d’adopter des méthodes de référencement visant à réduire, autant que faire se peut, l’incidence de la mouvance du Web.

4.1. Référencer prudemment

Le choix même des liens que l’on veut signaler à son public comprend plusieurs éléments dont il faut s’assurer :

4.1.1. L’url

Plus elle est précise, plus elle est susceptible de changer dans le temps. Ainsi, dans l’exemple ci-dessus du catalogage celui de l’url de la recherche combinée dans le catalogue BN-Opale Plus de la Bibliothèque nationale : http://catalogue.bnf.fr/jsp/recherche_combinee.jspil est probable que la partie « locale » de l’url (celle suivant le premier « / » isolé) évolue avec les technologies mises en œuvre à la BnF, tandis que le nom du serveur (catalogue.bnf.fr) restera probablement inchangé, puisqu’il est associé à une fonction plutôt qu’une technologie. Quand bien même on voudrait fournir au lecteur un accès plus rapide au catalogue en lui donnant l’adresse directe pour lui éviter d’avoir à le retrouver sur le serveur de la BnF, il est plus prudent de fournir uniquement l’adresse du serveur, dans ce cas :
http://catalogue.bnf.fr/

4.1.2. La description de l’objet référencé

Sans pour autant prescrire l’utilisation de métadonnées, il est important d’attacher à chaque lien référencé un descriptif clair de l’organisme et du service offert. Ceci facilite non seulement au lecteur la décision de suivre ou non le lien, mais de retrouver la ressource, à l’aide de moteurs de recherche, par exemple, si un changement d’url a lieu. Ainsi, une liste de liens vers des catalogues en ligne, qui ne comporterait qu’un titre global (« Liens vers des bibliothèques ») et aucun descriptif pour chaque lien est à prescrire. Par exemple, le lien :
http://rodent.lib.rochester.edu/sib/référençait la bibliothèque musicale Sibley du conservatoire de musique Eastman, ce qui n’est pas du tout apparent dans l’url, qui n’existe plus. Une fois que l’on aura constaté la disparition du lien, comment rechercher son remplacement, si l’on ne sait plus ce que le lien indiquait ? Par contre, il suffit d’effectuer une recherche sur le nom de la bibliothèque et du conservatoire dans un moteur tel qu’Altavista pour obtenir l’adresse valide,
http://sibley.esm.rochester.edu

4.1.3. La date de référencement ou de la dernière vérification

En cas d’inaccessibilité du site référencé, elle fournit un élément pour estimer si le site a disparu ou son adresse a changé (ce qui est improbable si le référencement est récent) ou si ce n’est qu’une disparition temporaire ou une panne de réseau.

4.2. Vérifier et désherber régulièrement

La pertinence des liens fournis aux lecteurs mérite que l’on en vérifie régulièrement le bon fonctionnement, de même que l’on fait un inventaire régulier des étagères d’une bibliothèque.

Lorsque l’on ne dispose pas d’un système automatique qui pourrait aider dans cette tâche, il est souhaitable de se fixer un calendrier régulier de vérification des liens (aussi bien internes qu’externes) fournis aux lecteurs. Elle ne consiste pas uniquement à cliquer sur le lien pour constater qu’il est encore fonctionnel, mais aussi à vérifier son adéquation avec le descriptif.

Cette tâche est particulièrement importante dans le cas de référencement vers des serveurs gratuits tels que Geocities, qui offrent des hébergements à des adresses en partie numériques ; une fois celles-ci abandonnées par leur utilisateur, elles sont réassignées à un autre utilisateur. Ainsi, l’url
http://www.geocities.com/Athens/Academy/7965
référence la bibliothèque publique Kimberley, qui pourrait décider d’acquérir un nom de domaine personnalisé et d’abandonner cette adresse ; celle-ci sera alors réaffectée au site Web d’un particulier ou d’un organisme n’ayant rien à voir avec cette bibliothèque.

4.3. Automatiser ?

Le référencement, la vérification, l’actualisation et le desherbage des liens s’allourdit avec l’accroissement de leur nombre. De même que les bibliothèques ont automatisé la gestion de leurs catalogues, on en vient à automatiser la gestion des liens externes offerts sur les pages Web, avec des systèmes ad hoc ou professionnels, comprenant des descriptifs informels ou des métadonnées structurées, elles-mêmes encore en évolution.

Il existe toutefois des logiciels, disponibles en général gratuitement pour des utilisations internes ou pédagogiques, sur diverses plates-formes (Windows, Macintosh, Linux…), qui permettent de réaliser à peu de frais (quelques jours de programmation) un système relativement simple pour une telle gestion de liens :

- MySQL ([http://www.mysql.com/]) sert à réaliser des bases de données accessibles en réseau, en association avec des outils tels php ou Perl pour la création de pages Web offrant l’accès à ces bases ;

- Perl ([http://www.perl.org/]) est un langage de script comprenant aussi des fonctionnalités basiques pour la réalisation de bases de données simples indépendamment de MySQL. Il est fréquemment utilisé aux côtés de systèmes bibliothéconomiques ou documentaires¹⁶ et de serveurs Web pour pallier certains de leurs manques, étendre leurs fonctionnalités, convertir aisément des données d’un format à l’autre, etc.

Ces outils, indépendamment ou non, peuvent servir à créer et de gérer facilement des bases de données. On peut ainsi concevoir et réaliser un outil de gestion d’une collection de liens, qui permettrait, par exemple :

- l’ajout d’un nouveau lien à la base, lui associant un descriptif textuel, et éventuellement une classification hiérarchique ;

- la possibilité de modifier un lien, sa description ou sa classification ;

- la production de pages Web proposant des listes de liens, triés par classification ou par descriptif, affichant le lien, sa description et sa dernière date de vérification ;

- une recherche en texte intégral dans les descriptifs ;

- la vérification périodique et automatique de la possibilité de joindre les liens, avec production de message d’alerte (sous forme de courrier électronique) pour les liens inaccessibles de façon répétée au delà d’un certain seuil.

- la vérification périodique et automatique du changement éventuel du contenu des pages référencées (ce qui n’a évidemment de sens que pour les liens vers des textes, articles ou autres objets de nature « fixe »).

4.4. Préserver les données

Peut-on pallier l’impermanence des adresses et des données en les conservant ? S’il est pratiquement impossible de recopier toute ressource « intéresssante » sur le réseau local – notamment lorsqu’il s’agit d’un catalogue, d’une base de données ou en général d’un service –, il est toutefois techniquement possible de recopier toute ou partie d’un site Web, et d’en préserver ainsi les textes, voire les images, les sons… Des logiciels adéquats, plus ou moins gratuits, plus ou moins techniquement intéressants, sont disponibles sur l’Internet¹⁷.

Toutefois, ce mode de conservation est plus théorique que pratique pour une petite structure, vu la quantité des sites « intéressants », et requiert des moyens de stockage importants et de gestion de l’information recopiée. En outre, il est nécessaire d’obtenir l’autorisation auprès de l’organisme ou du particulier dont on souhaiterait recopier la production intellectuelle pour en faire une rediffusion. Enfin, une telle recopie n’élimine pas le besoin de vérifier régulièrement les mises à jour des documents copiés sur le serveur d’origine (information qu’il faut donc aussi préserver), quand ceux-ci sont sujets à évolution.

Par contre, certains projets nationaux ou internationaux visent à mettre en place des archives de pages Web de leurs pays, tel un dépôt légal. Ainsi, la bibliothèque nationale de Finlande compte reprendre son travail sur les urns (voir ci-dessus) et l’étendre au développement d’un système d’archivage international dans le cadre du projet européen nedlib¹⁸: chaque bibliothèque nationale pourra archiver non seulement les sites Web de son pays mais aussi des ressources telles que les bases de données, des systèmes expert ou des jeux informatiques, en identifiant chacune d’elles par l’entremise d’un nbn (voir note 14 ci-dessus) accessible par le mécanisme des urns. Ce projet, aux ramifications aussi bien techniques que légales, est en cours (discussions sur les normes, sur le prototypage d’un tel système, sa validation…). Des rapports semestriels (dont le dernier remonte à mars 1999…) et ceux des réunions de travail (la dernière en date : mai 2000) sont disponibles sur leur site (voir note 18).

De son côté, ISO (Organisation internationale de normalisation, [http://www.iso.ch/]) encourage le développement de normes pour la conservation à long terme d’informations numériques obtenues d’observations terrestres et spatiales ([http://ssdoo.gsfc.nasa.gov/nost/isoas/]). Malgré le domaine d’application restreint, leur proposition d’un modèle de référence pour la réalisation d’un système d’archivage ouvert (appelé oais, Open Archival Information System) vaut la peine d’être suivie, car elle tente de proposer un modèle conceptuel pour la conservation à long terme¹⁹, prenant en compte les évolutions technologiques, l’émergence de nouveaux supports et formats de données, les changements organisationnels (des producteurs des données, des propriétaires, des utilisateurs).

Il serait futile de tenter de prédire l’établissement de normes internationales ou nationales et de systèmes permettant de tout préserver à jamais (et de pouvoir alors s’en servir utilement). Il est probable que des solutions limitées dans le temps et l’espace seront (ou sont déjà) mises en œuvre, notamment au niveau d’organismes individuels. Il est à espérer qu’il sera possible de reprendre leurs archives et de les intégrer dans un nouveau système plus vaste, si un jour celui-ci voit le jour.

5. Références

En complément des références fournies dans ce chapitre, les organismes ci-dessous proposent une réflexion intéressante sur les aspects que nous avons brièvement évoqués ci-dessus, en général sous forme d’articles, essais, manuels ou ressources Web :

- clir (Council on Library and Information Resources, [http://www.clir.org/]), organisme américain visant à encourager la réflexion sur la conservation dans les bibliothèques traditionnelles et le développement de bibliothèques numériques.

- « Catherine Lupovici : Le Digital Object Identifier. Le système du doi » (Bulletin des bibliothèques de France, 1998 n° 3, [http://www.enssib.fr/bbf/bbf-98-3/10-lupovici.pdf]). Cet article décrit en détail (et en français) un des systèmes mentionnés ci-dessus.

- epic (European Preservation Information Center [http://www.knaw.nl/ecpa/]), commission européenne sur la conservation et l’accès, est principalement concernée par les livres et documents papier, propose aussi une réflexion sur la conservation numérique.

- CoOL (Conservation OnLine [http://palimpsest.stanford.edu/]) est une bibliothèque en ligne de nombreuses ressources sur la conservation, établie par les bibliothèques de l’Université de Stanford. La pérennité de documents numériques y est discutée.

- RLG Preservation Program (Research Libraries Group [http://www.rlg.org/preserv/]) propose une politique et pratique pour la conservation à long terme de documents numériques.

Une liste de ressources connexes est fournie sur le site Web de l’Initiative canadienne sur les bibliothèques numériques ([http://www.nlc-bnc.ca/cidl/inforesf.htm]).

Les problèmes liés à l'instabilité du Web.Comment conserver.