![]() |
Serveur © IRCAM -
CENTRE POMPIDOU 1996-2005. Tous droits réservés pour tous pays. All rights reserved. |
L’émergence du Web au cours des années 90 a été le moteur principal de la
prise de conscience par le grand public de l’existence de l’Internet1 et de sa
capacité à offrir une grande variété de modes de communication. Certains d’entre
eux préexistaient au Web, tels le courrier électronique (mél., email…) ou
les forums publics de discussion (Usenet, news…), mais ceux-ci étaient
surtout utilisés par des professionnels : ils nécessitaient tout d’abord un
accès au réseau, disponible presque exclusivement dans les milieux
universitaires et professionnels, ainsi qu’une familiarité, voire une compétence
technique certaine, avec les outils informatiques.
L’apparition de l’hypertexte comme point d’entrée vers cette immensité
d’ordinateurs reliés entre eux2 et comme interface masquant la
multiplicité des protocoles3 et des formats4 a permis à des amateurs ou curieux,
non-« initiés », d’accéder à ces ressources variées :
butineurs (ou navigateurs, browsers) gratuits au départ (Mosaic, le père
de tous), auquels se sont rajoutés au fil du temps des extensions pour le
traitement du courrier électronique, l’accès aux forums publics, l’écoute en
ligne de la musique, le visionnage de clips vidéo, l’interactivité…
Durant les premières années qui ont suivi la naissance du Web, l’accès s’y
faisait principalement sur le lieu de travail, ou alors par l’entremise de
celui-ci (par modem, de chez soi vers son lieu de travail). Or, l’intérêt accru
du grand public et les intérêts économiques des fournisseurs d’accès
professionnels ont encouragé ces derniers à diversifier leur offre vers les
particuliers, leur permettant ainsi de dissocier leur connexion privée de celle
fournie par leur employeur.
À son tour, cet intérêt croissant a suscité le foisonnement des fournisseurs
d’accès, la concurrence et la baisse des tarifs, et donc une connectivité accrue
de la part de tous les publics, professionnel et particuliers vers le courrier
électronique et les sites Web, au départ surtout institutionnels ou
professionnels.
Puis, la banalisation des outils permettant de créer de plus en plus
facilement des pages Web (on peut le faire même avec des outils de traitement de
texte, tels Word de Microsoft), puis des services (bases de données,
catalogues…), toute personne ou entreprise de quelque taille que ce soit ayant
accès à l’Internet peut dorénavant créer son propre site, que ce soit chez sur
son lieu de travail (si l’employeur l’autorise ou le tolère), chez des
hébergeurs commerciaux ou gratuits5, voire chez soi, pour peu que l’on y
possède une liaison permanente (par câble, Numeris, ADSL…).
L’internaute possède dorénavant sa propre adresse électronique, qui n’est pas
nécessairement celle qui lui est attribuée par le fournisseur d’accès, mais
souvent hébergée, elle aussi, chez un fournisseur de boîtes à lettres
gratuit6. Il peut ainsi surfer d’un
fournisseur à l’autre, sans avoir à changer à chaque fois la domiciliation de sa
boîte à lettres électronique. Enfin, pour éviter d’avoir aussi à changer
l’adresse de son site, il obtiendra un « nom de domaine » indépendant
et personnalisé (par exemple : www.michel-dupont.fr)
qu’il conservera tout en changeant de fournisseur d’accès ou
d’hébergeur.
On le voit : la multiplication de l’offre de connectivité a causé un
accroissement très rapide de publication sur le Web par des particuliers et des
entreprises ; en ce qui nous concerne, des bibliothèques de plus en plus
nombreuses mettent leur catalogue en réseau, indépendamment ou en commun avec
d’autres bibliothèques7.
La corruption de supports fragiles
d’accès souvent restreint obligeant
à procéder à des transferts sur des supports numériques, un nombre
croissant de bibliothèques dites numériques offrent un accès par réseau à des
collections de plus en plus importantes de documents, parfois intégrés à leurs
catalogues. La conservation numérique en ligne, commence à devenir une
réalité, avec, comme corollaire, une diffusion accrue.
En contrepartie et paradoxalement, la pérennité décroît : les
particuliers « bougent », les institutions évoluent, les supports
numériques se dégradent bien plus rapidement que le papier, les normes de codage
changent et varient d’une plate-forme à l’autre. La croissance de l’offre en ligne
s’accompagne trop souvent d’un raccourcissement de sa durée de vie (ou
d’accès) ; comme l’a dit Stewart Brand lors d’une conférence récente (dont
le lien sur l’Internet a disparu…) : « les archéologues du futur
retrouveront notre vaisselle mais pas nos courriers
électroniques ».
Nous allons examiner en détail les conséquences de ces tendances et les
tentatives d’en réduire les effets pervers.
Une ressource (document textuel, sonore, composite… - ou un service – base de
données, catalogue, annuaire…) est accessible sur le Web au moyen d’un lien
hypertextuel : à une partie d’un texte (décrivant en général cette
ressource) est attaché un code, appelé url (Uniform Ressource Locator),
servant à localiser la ressource en question. Prenons, par exemple, celui de la
recherche combinée dans le catalogue BN-Opale Plus de la Bibliothèque
nationale :
http://catalogue.bnf.fr/jsp/recherche_combinee.jsp
La partie précédant le signe « :// » indique le protocole, ou mode
de connexion, utilisé pour accéder à ce service. Dans la plupart des cas qui
nous concernent, ce sera le protocole http, mais l’on trouve
encore beaucoup de catalogues fonctionnant sous le protocole telnet (avec, par exemple, une adresse
de la forme TELNET://opale02.bnf.fr),
ainsi que des ressources documentaires utilisant des protocoles tout à fait
différents (voir note 3
ci-dessus).
La partie suivante de l’adresse, comprise entre le « // » et le
« / » suivant, catalogue.bnf.fr,
est le nom d’un serveur8 appelé catalogue
dans le domaine9 bnf.fr.
Comme on le voit, il n’est pas nécessaire qu’il possède un nom commençant par
www :
c’était une convention utilisée durant les premières années du Web mais avec la
multiplication des serveurs dans un même organisme, il a fallu diversifier les
noms. Il se peut aussi qu’un même ordinateur offre plusieurs types de
services, et donc plusieurs protocoles : http://un.exemple.fr
pour le Web, ftp://un.exemple.fr
pour le transfert de fichiers, etc.
La partie suivant le premier « / » isolé indique le
chemin dans l’ordinateur vers la ressource souhaitée. L’url est donc une adresse, un
moyen de la localiser sur l’Internet, puis sur un serveur. Or les adresses
pouvant changer, ce moyen d’identification n’est pas stable. C’est ainsi le cas
du lien hypertextuel indiqué dans la rubrique « Informations
professionnelles » du serveur de la BnF censé mener vers « la
conservation des documents » : lorsque l’on veut s’y rendre, il
renvoie un message d’erreur. Quelles en sont les causes
possibles ?
Toutes les composantes de l’url sont sujettes à obsolescence. Les
raisons les plus communes en sont :
Le domaine peut tout simplement disparaître de l’Internet, phénomène plus courant lorsqu’il appartient à un particulier ou un petit organisme. Le butineur affichera alors une erreur indiquant qu’ « il ne peut trouver le serveur dans le DNS10 ».
L’ordinateur peut avoir disparu du domaine ; si ce dernier appartient,
par exemple, à un organisme important, il se peut qu’une réorganisation ait
causé la fermeture d’un département dont dépendait cet ordinateur, impliquant sa
mise hors-service.
Ce phénomène est bien plus commun encore que le précédent. Ainsi le Centre Pompidou possédait le domaine cnac-gp.fr (reflétant sa raison sociale complète, Centre National d’Art et de Culture Georges Pompidou), mais il vient de le changer en centrepompidou.fr (pour permettre de le trouver plus facilement).
Des ordinateurs peuvent changer de nom, ou des services peuvent migrer d’un
ordinateur à un autre. Ainsi, le catalogue de la Bibliothèque du Congrès, aux
Etats-Unis, se trouvait sur lcweb.loc.gov
mais est dorénavant (du moins au moment de la rédaction de ce texte) accessible
sur le serveur catalog.loc.gov.
Quant bien même l’ordinateur (et son domaine) peuvent rester stables, il se
peut qu’un service offert sur cet ordinateur change de protocole ou soit
supprimé : ainsi, gopher est
un protocole qui a presque tout à fait disparu au profit de Http, il est donc fort
probable qu’une adresse du type gopher://notre.exemple.fr
ne soit plus valable, sans que l’on puisse a priori déterminer si http://notre.exemple.fr
l’est ou non.
La partie qui suit le premier « / » isolé peut changer, suite à des
modifications ou réorganisations de fichiers ou d’applications sur le
serveur ; le document ou le service existe bien, mais il est ailleurs. Dans
ce cas, le butineur affichera un message d’erreur du genre « document
inexistant » (ou, plus succinctement, « 404 Not Found »),
indiquant qu’il a bien trouvé le serveur, mais pas le document ou le service
requis.
La disparition, intentionnelle ou non (un fichier effacé par mégarde, par
exemple), se manifeste par le même message d’erreur, « document
inexistant ».
Si l’url ressemble, par
certains aspects – le moyen de localiser un document – à la cote d’un livre dans
une bibliothèque, elle en diffère par une caractéristique très importante :
la même url peut
référencer un document qui change d’une consultation à l’autre, ce qui n’est pas
le cas pour un livre associé à une cote. En effet, le contenu du document
référencé peut être modifié sans que l’on ait à changer son url, notamment s’il s’agit d’un fichier
sur un ordinateur : on peut éditer le fichier sans en changer son
nom.
De nombreuses raisons peuvent y contribuer : corrections d’erreurs,
mises à jour... En outre, un document référencé par une seule url peut être constitué de plusieurs
composantes : des images incluses, des sous-documents indépendants et
disposés les uns à côté des autres, appelés cadres (frames). Il peut
aussi n’être que l’adresse d’une table des matières d’un document conséquent,
dont les chapitres sont des ressources indépendantes, elles-même constituées de
texte, d’images, de cadres... Chaque image, chaque cadre, chaque chapitre, peut
faire l’objet de modifications de contenu ou d’adresse, sans que l’adresse du
document global en soit affectée.
Un autre type de modification est dû, par exemple, à l’attribution d’une
url fixe à la page du numéro le
plus récent d’un périodique en ligne, ou à la page d’actualités d’un site Web.
Il est évident alors que le contenu changera souvent, sans que l’adresse ne
change.
Une cause souvent oubliée des difficultés d’accès peut être due, non pas à un
changement quelconque à la source, sur le serveur, mais, au contraire, à une
non-adéquation entre la façon dont ces contenus ont été numérisés ou codés pour
leur mise en ligne et le butineur servant à les consulter.
Ainsi, le langage html a
évolué depuis son émergence, et certains butineurs (plus anciens) ne peuvent
afficher des documents utilisant des normes plus récentes (par exemple :
les cadres). Inversement, des pages Web anciennes peuvent ne plus être affichées
correctement dans un butineur récent. Il en va d’ailleurs de même avec d’autres
applications encore plus répandues : un document écrit à l’aide de Word
n’est pas forcément lisible à l’aide de Word… si le document est trop vieux,
vient d’une autre plate-forme, ou, à l’inverse, si la version de Word utilisé
pour le lire est plus ancienne que le document…
D’autre part, et contrairement aux affirmations plutôt hypocrites de certains
éditeurs de logiciels, les normes ne permettent pas toujours d’obtenir une
interopérabilité11 œcuménique : des réalisations
basées sur une même norme peuvent différer d’un constructeur de matériel ou
éditeur de logiciel à l’autre – en général pour évincer l’outil du concurrent.
Combien de fois n’arrive-t-il pas qu’une page Web ne peut pas s’afficher dans un
navigateur tandis qu’elle l’est avec un autre, ou qu’elle s’affiche mieux dans
l’un que dans l’autre ?
Il est aussi plus difficile, reconnaissons-le, de réaliser des documents qui
seront lisibles sans aucune différence sur un Macintosh, un PC ou Unix, au vu de
la variété des systèmes de codage des caractères d’une plate-forme à l’autre et
d’un pays à l’autre.
Il ne faut pas oublier que certaines des erreurs dont nous avons parlé
peuvent, en fait, n’être dues qu’à un problème de connectivité sur l’Internet,
de nature temporaire, en général. Ce type de problème peut commencer au niveau
même de l’ordinateur sur lequel on se trouve, ou affecter le réseau du
fournisseur ou de l’entreprise dans laquelle on travaille – et qui est donc plus
facile à identifier. Il peut, par contre, avoir lieu à un endroit quelconque sur
l’Internet, affectant la connectivité vers le serveur (par exemple : panne
sur le lien transatlantique, panne d’un routeur12…), ou, plus insidieusement, entre
l’ordinateur local et l’annuaire dns (voir note 10
ci-dessus) servant à identifier et localiser le serveur.
Ce qu’il faut en retenir, c’est que l’impossibilité temporaire de joindre une
ressource n’indique pas forcément sa disparition définitive. Celle-ci ne peut
être avérée que statistiquement – après des échecs répétés et durables - ou par
une source externe d’information (par exemple ; l’annonce de la cessation
d’activité d’un organisme ou d’un service).
Face à la prolifération des liens intéressants et à leur manque de stabilité
qui rend leur référencement à long terme problématique13,
quelles sont les possibilités ? Nous allons voir les solutions à long terme
et les stratégies palliatives dans le court terme.
Plusieurs propositions de normes de référencement de ressources en réseau
sont à l’étude. Elles ont pour but de permettre d’identifier et de localiser une
ressource à l’aide d’un identifiant invariable pour autant que le contenu
intellectuel de la ressource ne change pas, quand bien même cette dernière
pourrait migrer dans un ordinateur ou d’un ordinateur à l’autre.
Les deux systèmes particulièrement intéressants pour les bibliothèques sont
les URNs (Universal Resource Name) et le Handle System (handle
= poignée, qui permet d’avoir prise sur). L’un comme l’autre proposent une
numérotation internationale et un système de localisation des ressources. Ils en
diffèrent dans les détails de la numérotation, du répertoriage et des services
additionnels qu’ils proposent.
Conçu par le groupe de travail de l’ingénierie de l’Internet (ietf – Internet Task Force), c’est un cadre permettant la définition de familles d’identifiants uniques (qui ne seront jamais réutilisés), persistants (bien au-delà de la durée de vie de la ressource, éventuellement), extensibles (pouvant prendre en compte quelque ressource que ce soit sur l’Internet dans un futur illimité) et pouvant intégrer des systèmes d’identification plus anciens (notamment les isbn, issn…).
En discussion depuis sa réémergence en 1996, ce cadre n’est pas encore répandu, et la plupart des exemples que l’on verra sont donc théoriques (mais réalisables). Toutefois, la bibliothèque universitaire d’Helsinki a mis en place un système expérimental utilisant le nbn14 dans le cadre du projet ambitieux Nordic Metadata, et l’a proposé au groupe de travail de l’ietf, ainsi qu’à la conférence des bibliothèques nationales européennes de 1998, qui a décidé de l’adopter. Faute de financement, les sites danois et suédois ont périclité, mais le site norvégien ([http://nwi.bibsys.no/]) existe encore. issn International, l’organisme de référencement des publications en série, a aussi réalisé un prototype fonctionnel intéressant ([http://urn.issn.org/]).
En voici quelques exemples possibles:
un livre : urn:ISBN:0-395-36341-1
un périodique : urn:SICI:1046-8188(199501)13:1<>1.0.TX;2-F
un article de périodique : urn:SICI:1046-8188(199501)13:1<69:FTTHBI>2.0.TX;2-4
un document répertorié à la bibliothèque nationale de
Finlande :
urn:NBN:fi-fe976238
Une urn comprend donc 3 champs, séparés par les deux premiers « : » :
Pour que les urns servent à localiser des documents, encore faut-il mettre en place un système de résolution universel, qui traduise une urn – l’identifiant du document – en une url – son adresse sur le réseau. Un tel système n’existe pas encore, mais les recommandations pour sa réalisation sont ambitieuses et intéressantes. Ainsi, au même urn (par exemple : dérivé de l’isbn d’un livre numérisé en ligne) pourraient être associées plusieurs urls (les adresses effectives de plusieurs exemplaires du même livre disponibles sur l’Internet, en un même ou différents formats, mais tous comprenant le même contenu intellectuel).
Proposé par le cnri (la Corporation for National Research Initiatives américaine ®www.handle.net), le Handle System propose, lui aussi, des identifiants « éternels » pour des objets numériques ou autres ressources de l’Internet, ainsi qu’un système de résolution (permettant de les localiser).
A la différence des urns, il est bien plus avancé dans la définition des principales composantes nécessaires à sa réalisation, est utilisé dans des systèmes pilotes américains (Bibliothèque du Congrès, Agence d’information américaine, Centre d’information technique de la défense…) et propose des logiciels libres pour son utilisation, étendant les capacités d’un navigateur Web lui permettant d’utiliser ce codage. Enfin, son dérivé, le doi (Digital Object Identifier, identificateur d’objet numérique) a été proposé par des éditeurs, plutôt que des bibliothèques, pour identifier leurs documents…
Voici des exemples d’identifiant dans ce système :
hdl:cnri.dlib/july95-arms
hdl:berkeley.cs/1994.12.05.23.42.12;7
hdl:10.1045/january99-bearman
hdl:4263537/4031
Ils comprenent trois champs, comme l’urn, séparés par un « : » pour les 2 premiers, et par un « / » pour les deux suivants:
Ce système de numérotation ressemble quelque peu à celui de l’isbn, dans lequel chaque éditeur est identifié par un préfixe unique, auquel il est libre de rajouter un suffixe qu’il choisit pour identifier ses publications, d’où son intérêt pour le domaine de l’édition. En sus, il permet d’associer à tout identifiant des métadonnées nécessaires pour accéder à l’objet : l’adresse de l’objet - sous forme d’une url, par exemple -, et/ou de services tels que le contrôle des droits d’accès et de propriété intellectuelle de l’objet en question. Enfin, il est dans un état plus concret et avancé que les urns ; il explicite la hiérarchie des autorités de nommage, et propose des logiciels pour gérer, non seulement l’interrogation, mais l’administration de ce système : comment y rajouter ou modifier un objet, comment rajouter une autorité déléguée, etc.
Le doi (Digital Object Identifier) est une organisation, regroupant des éditeurs (Academic Press, Blackwell, Elsevier, Silver Platter, Springer Verlag, Wiley…), des associations d’éditeurs, de producteurs de musique, isbn International, etc., qui propose un système basé sur les principes ci-dessus. Celui-ci ne vise pas à répertorier toutes les ressources de l’Internet, mais plutôt des « créations de l’esprit humain » pour lesquels il existerait des droits (de propriété intellectuelle) négociables, abstraites (comme une œuvre de musique) ou physique (comme un livre). Cet aspect se manifeste dans la définition des métadonnées. Ce système, comme les autres, n’existe encore que sous forme de prototype chez certains éditeurs (tels Academic Press, qui a annoncé numéroter ainsi toutes les publications électroniques de son système ideal).
L’évolution du doi n’a pas manqué d’intéresser cisac ([http://www.cisac.org/]), la confédération internationale des sociétés d’auteurs et de compositeurs, qui a pour vocation de défendre les droits et les intérêts des auteurs dans le monde entier. Elle développe un « Système d’information commun » (cis) destiné à permettre la gestion de ces droits, et comprenant des bases reliées entre elles, servant à identifier les œuvres de manière précise et unique ainsi que leurs ayants droit. Cette réflexion a produit une proposition pour la création de nouveaux identifiants, le iswc (International Standard Work Code) puis le isan (International Standard Audiovisual Number), qui se rajoutent à l’isrc (International Standard Recording Code)… Des rapprochements sont en cours entre ses travaux et ceux du doi.
Les méthodes d’identification présentées ci-dessus ont pour ambition de
permettre d’associer à des documents ou services de l’Internet (voire à des
objets plus abstraits) des identifiants permanents. Un référencement externe au
moyen de ces identifiants assurerait leur stabilité, pour autant que l’autorité
déléguée, chargée du référencement d’une famille d’objets, mette à jour leurs
adresses en cas de changement. Ce n’est pas le cas dans le Web actuellement, où
l’on référence directement l’adresse de l’objet, celle-ci n’ayant en général
aucune signification particulière et souffrant d’impermanence. On est en droit
d’espérer voir le référencement évoluer d’une url vers un identifiant plus
significatif (issn, isbn, iswc…) et donc plus stable, avec une
gestion des droits d’accès.
Pour le moment, il n’existe aucun système universellement reconnu qui permettrait le remplacement de l’utilisation des urls par des identifiants plus stables. Dans l’état des choses, il faut tenter d’adopter des méthodes de référencement visant à réduire, autant que faire se peut, l’incidence de la mouvance du Web.
Le choix même des liens que l’on veut signaler à son public comprend plusieurs éléments dont il faut s’assurer :
La pertinence des liens fournis aux lecteurs mérite que l’on en vérifie régulièrement le bon fonctionnement, de même que l’on fait un inventaire régulier des étagères d’une bibliothèque.
Lorsque l’on ne dispose pas d’un système automatique qui pourrait aider dans cette tâche, il est souhaitable de se fixer un calendrier régulier de vérification des liens (aussi bien internes qu’externes) fournis aux lecteurs. Elle ne consiste pas uniquement à cliquer sur le lien pour constater qu’il est encore fonctionnel, mais aussi à vérifier son adéquation avec le descriptif.
Cette tâche est particulièrement importante dans le cas de référencement vers
des serveurs gratuits tels que Geocities, qui offrent des hébergements à des
adresses en partie numériques ; une fois celles-ci abandonnées par leur
utilisateur, elles sont réassignées à un autre utilisateur. Ainsi, l’url
http://www.geocities.com/Athens/Academy/7965
référence la
bibliothèque publique Kimberley, qui pourrait décider d’acquérir un nom de
domaine personnalisé et d’abandonner cette adresse ; celle-ci sera alors
réaffectée au site Web d’un particulier ou d’un organisme n’ayant rien à voir
avec cette bibliothèque.
Le référencement, la vérification, l’actualisation et le desherbage des liens s’allourdit avec l’accroissement de leur nombre. De même que les bibliothèques ont automatisé la gestion de leurs catalogues, on en vient à automatiser la gestion des liens externes offerts sur les pages Web, avec des systèmes ad hoc ou professionnels, comprenant des descriptifs informels ou des métadonnées structurées, elles-mêmes encore en évolution.
Il existe toutefois des logiciels, disponibles en général gratuitement pour des utilisations internes ou pédagogiques, sur diverses plates-formes (Windows, Macintosh, Linux…), qui permettent de réaliser à peu de frais (quelques jours de programmation) un système relativement simple pour une telle gestion de liens :
- MySQL ([http://www.mysql.com/]) sert à réaliser des bases de données accessibles en réseau, en association avec des outils tels php ou Perl pour la création de pages Web offrant l’accès à ces bases ;
- Perl ([http://www.perl.org/]) est un langage de script comprenant aussi des fonctionnalités basiques pour la réalisation de bases de données simples indépendamment de MySQL. Il est fréquemment utilisé aux côtés de systèmes bibliothéconomiques ou documentaires16 et de serveurs Web pour pallier certains de leurs manques, étendre leurs fonctionnalités, convertir aisément des données d’un format à l’autre, etc.
Ces outils, indépendamment ou non, peuvent servir à créer et de gérer facilement des bases de données. On peut ainsi concevoir et réaliser un outil de gestion d’une collection de liens, qui permettrait, par exemple :
- l’ajout d’un nouveau lien à la base, lui associant un descriptif textuel, et éventuellement une classification hiérarchique ;
- la possibilité de modifier un lien, sa description ou sa classification ;
- la production de pages Web proposant des listes de liens, triés par classification ou par descriptif, affichant le lien, sa description et sa dernière date de vérification ;
- une recherche en texte intégral dans les descriptifs ;
- la vérification périodique et automatique de la possibilité de joindre les liens, avec production de message d’alerte (sous forme de courrier électronique) pour les liens inaccessibles de façon répétée au delà d’un certain seuil.
- la vérification périodique et automatique du changement éventuel du contenu des pages référencées (ce qui n’a évidemment de sens que pour les liens vers des textes, articles ou autres objets de nature « fixe »).
Peut-on pallier l’impermanence des adresses et des données en les conservant ? S’il est pratiquement impossible de recopier toute ressource « intéresssante » sur le réseau local – notamment lorsqu’il s’agit d’un catalogue, d’une base de données ou en général d’un service –, il est toutefois techniquement possible de recopier toute ou partie d’un site Web, et d’en préserver ainsi les textes, voire les images, les sons… Des logiciels adéquats, plus ou moins gratuits, plus ou moins techniquement intéressants, sont disponibles sur l’Internet17.
Toutefois, ce mode de conservation est plus théorique que pratique pour une petite structure, vu la quantité des sites « intéressants », et requiert des moyens de stockage importants et de gestion de l’information recopiée. En outre, il est nécessaire d’obtenir l’autorisation auprès de l’organisme ou du particulier dont on souhaiterait recopier la production intellectuelle pour en faire une rediffusion. Enfin, une telle recopie n’élimine pas le besoin de vérifier régulièrement les mises à jour des documents copiés sur le serveur d’origine (information qu’il faut donc aussi préserver), quand ceux-ci sont sujets à évolution.
Par contre, certains projets nationaux ou internationaux visent à mettre en place des archives de pages Web de leurs pays, tel un dépôt légal. Ainsi, la bibliothèque nationale de Finlande compte reprendre son travail sur les urns (voir ci-dessus) et l’étendre au développement d’un système d’archivage international dans le cadre du projet européen nedlib18: chaque bibliothèque nationale pourra archiver non seulement les sites Web de son pays mais aussi des ressources telles que les bases de données, des systèmes expert ou des jeux informatiques, en identifiant chacune d’elles par l’entremise d’un nbn (voir note 14 ci-dessus) accessible par le mécanisme des urns. Ce projet, aux ramifications aussi bien techniques que légales, est en cours (discussions sur les normes, sur le prototypage d’un tel système, sa validation…). Des rapports semestriels (dont le dernier remonte à mars 1999…) et ceux des réunions de travail (la dernière en date : mai 2000) sont disponibles sur leur site (voir note 18).
De son côté, ISO (Organisation internationale de normalisation, [http://www.iso.ch/]) encourage le développement de normes pour la conservation à long terme d’informations numériques obtenues d’observations terrestres et spatiales ([http://ssdoo.gsfc.nasa.gov/nost/isoas/]). Malgré le domaine d’application restreint, leur proposition d’un modèle de référence pour la réalisation d’un système d’archivage ouvert (appelé oais, Open Archival Information System) vaut la peine d’être suivie, car elle tente de proposer un modèle conceptuel pour la conservation à long terme19, prenant en compte les évolutions technologiques, l’émergence de nouveaux supports et formats de données, les changements organisationnels (des producteurs des données, des propriétaires, des utilisateurs).
Il serait futile de tenter de prédire l’établissement de normes internationales ou nationales et de systèmes permettant de tout préserver à jamais (et de pouvoir alors s’en servir utilement). Il est probable que des solutions limitées dans le temps et l’espace seront (ou sont déjà) mises en œuvre, notamment au niveau d’organismes individuels. Il est à espérer qu’il sera possible de reprendre leurs archives et de les intégrer dans un nouveau système plus vaste, si un jour celui-ci voit le jour.
En complément des références fournies dans ce chapitre, les organismes ci-dessous proposent une réflexion intéressante sur les aspects que nous avons brièvement évoqués ci-dessus, en général sous forme d’articles, essais, manuels ou ressources Web :
-
clir (Council on
Library and Information Resources, [http://www.clir.org/]),
organisme américain visant à encourager la réflexion sur la conservation dans
les bibliothèques traditionnelles et le développement de bibliothèques
numériques.
-
« Catherine Lupovici : Le Digital Object
Identifier. Le système du doi
» (Bulletin des bibliothèques de France, 1998 n° 3, [http://www.enssib.fr/bbf/bbf-98-3/10-lupovici.pdf]). Cet
article décrit en détail (et en français) un des systèmes mentionnés
ci-dessus.
-
epic (European
Preservation Information Center [http://www.knaw.nl/ecpa/]), commission européenne sur la
conservation et l’accès, est principalement concernée par les livres et
documents papier, propose aussi une réflexion sur la conservation
numérique.
-
CoOL (Conservation OnLine [http://palimpsest.stanford.edu/]) est une bibliothèque en
ligne de nombreuses ressources sur la conservation, établie par les
bibliothèques de l’Université de Stanford. La pérennité de documents numériques
y est discutée.
-
RLG Preservation Program (Research Libraries Group [http://www.rlg.org/preserv/]) propose une politique et
pratique pour la conservation à long terme de documents
numériques.
Une liste de ressources connexes est fournie sur le site Web de l’Initiative
canadienne sur les bibliothèques numériques ([http://www.nlc-bnc.ca/cidl/inforesf.htm]).
____________________________
Serveur © IRCAM-CGP, 1996-2003 - document
mis à jour le 20/06/1997 à 11h03m40s.