Systèmes de gestion

Grille de référence pour l’évaluation de logiciels de préservation numérique

Par Mathieu-Alex Haché, étudiant à la maîtrise en sciences de l’information à l’EBSI (Université de Montréal)

L’expression « Digital dark age » vous est-elle familière ? Cette dernière évoque la crainte de voir disparaître les documents numériques que nous produisons en masse faute de solutions adaptées pour pallier à l’obsolescence technologique. Compte tenu de la croissance exponentielle qu’a connue la production documentaire numérique au cours des dernières décennies, un nombre grandissant d’institutions de mémoire ont été contraintes à se doter d’outils afin de contrer cet « âge sombre numérique », que l’on qualifie parfois d’irrémédiable. Il serait cependant illusoire de considérer que la déconstruction de ce topique d’une société amnésique est exempte d’embuches. Les résultats d’une étude réalisée sous l’égide du Groupe de travail sur la conservation numérique de l’ABRC[1] (2019) abondent dans le même sens : sur un total de 52 institutions à vocation patrimoniale sondées, à peine la moitié (48 %) utilisent au moins un outil pour le traitement de la préservation numérique, soit en test, soit en production. Cette faible proportion est essentiellement due aux « cost and technical complexity of deploying a comprehensive, interoperable digital curation solution » (Blewer et al., 2019, p. 126).

Sur une note plus positive, l’émergence de logiciels libres et ouverts dédiés à la pérennisation des archives numériques a levé ces barrières. En effet, une tendance se profile selon laquelle les institutions de mémoire entament à l’unisson une migration vers ce type de logiciels pour mener à bien les activités inhérentes à la préservation numérique (Stewart et Breitwieser, 2019). Au moment d’écrire ces lignes, les logiciels libres et ouverts voués à la préservation des archives numériques, que celles-ci furent l’objet d’une numérisation ou qu’elles consistent d’emblée en des fichiers nativement numériques, se répandent comme une traînée de poudre et inondent le marché canadien : Archivematica, Brunnhilde, Goobi, Roda, XENA, etc. Difficile de s’y retrouver parmi cette marée de logiciels des plus divers[2]. Or donc, pour en venir au fait, il est reconnu que « 13 percent [of digital data loss is due to] software corruption » (Rinehart et al., 2014, p. 34), de là l’importance de se donner des balises sûres lorsque nous procédons au choix d’un tel logiciel pour notre organisation, et ce afin d’éviter de perdre des pans entiers de la réalité sociale et humaine. En dépit de ce qui précède, il n’en demeure pas moins que suite à une revue de la littérature, un constat révélateur fut dégagé : il n’existe que très peu d’écrits portant sur l’élaboration de grilles d’évaluation de plateformes de préservation numérique « open source ». Force est de constater que le corpus documentaire à ce sujet est fortement axé sur les solutions logicielles dédiées à la gestion de bibliothèques numériques (Barve et Prasad, 2010; Hoe-Lian Goh et al., 2006; Müller, 2012). Par ailleurs, un flagrant consensus émane de la littérature :

As the adoption of OSS [open-source software] solutions to support the curation of digital collections grew, and as both the number and variety of OSS tools increased, there is a growing need among preservationists to assess how […] to adopt particular tools so that they could better support their institutions’ specific requirements and workflows (Gengenbach et al., 2016).

En réponse à ce besoin criant, le but du présent travail est donc de combler cette lacune en proposant une grille d’évaluation polyvalente susceptible d’aider les « […] archivists [to] sift through the multitude of options presented as potential solutions to their need for managing digital resources, prioritizing long-term preservation » (Kaczmarek et al., 2006). Cette dernière s’adresse aux centres et services d’archives désireux d’ériger un dépôt numérique fiable en vue de la préservation à long terme des documents numériques étant sous leur garde. Bien qu’elle ne constitue certes pas une panacée pour résoudre tous les problèmes inhérents à la pérennisation des archives électroniques, cette grille critériée est avant tout un outil d’aide à la décision à même de prêter main-forte aux institutions d’archives quant au choix d’un logiciel de préservation numérique susceptible de s’arrimer avec leur mandat. Cet instrument, balisé par de multiples critères et constitué de cases à remplir, permet aux institutions d’archives intéressées de brosser un portrait inédit de l’adéquation entre leur mission respective et le bassin de logiciels qui s’offrent à elles. D’ailleurs, au cours des dernières années, la « maturisation » du secteur de la préservation numérique s’est ensuivie d’une profonde mutation des logiciels libres et ouverts qui y sont dédiés. Ces derniers sont passés « from a scattered set of standalone tools designed to accomplish discrete tasks (e.g., generating and validating checksums, directory mapping) to complex software environments that bundle multiple open-source tools together to provide a suite of preservation services » (Gengenbach et al., 2016, conclusion). En raison de leur nature non seulement fragmentaire et superposable, mais aussi agglomérante, une institution de mémoire a tout intérêt à recourir à un cadre de référence afin de départager les logiciels qu’elle envisage d’adopter, question de faire un choix éclairé et de déterminer lequel s’intégrerait le mieux à son flux de travail quotidien. Voilà donc un argument additionnel en faveur de l’élaboration d’une grille d’analyse permettant aux institutions d’archives de cerner leurs besoins et de les prioriser.

Un terreau fertile à l’adoption de logiciels libres et ouverts pour répondre aux exigences de la préservation numérique

Afin de contextualiser le problème, il s’avère impératif de dresser un état des lieux de la typologie des logiciels qui gravitent autour de la préservation numérique. À ce sujet, un point récurrent « […] to migrate from proprietary toward open source platforms » (Matusiak et al., 2017, p. 90) se dégage de la littérature. Ce virage radical s’explique en partie par le fait que la situation actuelle des logiciels propriétaires dédiés à la pérennisation des archives n’est pas reluisante et est même préoccupante. À cet égard, les logiciels propriétaires, qui rejoignent les modèles économiques néolibéraux, « […] ultimately contribut[e] to the commodification of cultural heritage information » (Alpert-Abrams et al., 2019, p. 13). De ce fait, les archives revêtent une dimension nouvelle au point de devenir « monétisables » (Morrisey, 2010). Cette métamorphose en marchandise commercialisable a pour cause de nouveaux mécanismes d’exclusion[3] qui découlent de l’usage exclusif octroyé par des institutions publiques à des fournisseurs commerciaux concernant des fonds ou collections sur lesquels ces derniers exercent un droit de propriété partiel, ce qui leur permet d’imposer pour un certain moment des frais d’acquisition ou d’abonnement[4], donnant un accès « exclusif » au patrimoine aux « consommateurs » dudit fournisseur (Nahuet et Roy, 2016, diapositive 9). Dès lors, l’accès égal pour tous est soumis aux lois du marché (Owens, 2012). Si la tendance se maintient, il est à parier que les institutions d’archives seront enclines à privilégier les collections les plus à même de générer un profit (Burns, 2018). Les perspectives commerciales des fournisseurs de produits se traduiront par des choix qui, plutôt que de refléter la diversité sociétale, renforceront les systèmes de pouvoir dominants et perpétueront le statu quo politique, c’est-à-dire les privilèges et l’exclusion de certains groupes[5] (Cifor, 2016). Le socle sur lequel repose ce modèle d’affaires se résume par l’indifférence des fournisseurs à l’égard de la pérennité du patrimoine culturel :

Vendors are not interested in obtaining or collecting [digital] archives, they are not interested in being stewards of knowledge or cultural heritage, and they are certainly not interested in preservation […]. Their ultimate goal is to aggregate, repackage, and control the information contained with the archive […] in order to generate capital (Burns, 2018, p. 7).

D’autre part, il va sans dire que les producteurs de logiciels propriétaires rivalisent d’ingéniosité afin de s’accaparer la plus grande part de marché (Bouthillier, 1997). Chacun s’autoproclame le meilleur de sa catégorie. Qu’en est-il réellement ? Couvrent-ils l’ensemble du flux de travail en matière de préservation numérique ? En effet, comme l’a souligné Tessa Walsh, ardente partisane de l’approche « libre » pour les archives, les sociétés éditrices de logiciels affirment généralement : « [our] technology [software] is going to solve all your problems for you. You’re going to use it, and it’s going to mean you’re […] now OAIS compliant » (T. Walsh, conférencière invitée, 23 septembre 2020). Perspective sans doute un peu utopique, d’où la nécessité de faire preuve de vigilance et de garder à l’esprit la question suivante : dans quelle mesure les logiciels répondent-ils véritablement aux exigences d’un dépôt numérique fiable conforme au modèle OAIS ?

Quant à eux, les logiciels libres et ouverts renversent les problèmes identifiés ci-haut, puisqu’ils rompent la logique de l’enfermement propriétaire [6] et sont conçus de manière modulaire et normalisée. Outre le potentiel d’économie[7] important qu’ils peuvent offrir, d’autres motifs sont mis de l’avant pour justifier leur adoption par les institutions d’archives, tels qu’une plus grande flexibilité dans la mise en œuvre de flux de travail liés à la préservation numérique (Madalli et al., 2012) ainsi que la possibilité de les déployer de manière incrémentielle, c’est-à-dire au fur et à mesure que le personnel se familiarise avec ceux-ci (Jordan, 2011). De plus, il ressort de la littérature recensée que ceux-ci peuvent soutenir les efforts de préservation numérique dans la mesure où leurs accords de licence « […] make it easier to take preservation measures without fear of violating the intellectual property claims of the original developers » (Lee, 2001, paragr. 11). Dans cette optique, ces logiciels prônent un paradigme axé sur les échanges réciproques et mutuellement bénéfiques entre les développeurs et les utilisateurs : « This relationship between tool users [cultural heritage organizations] and developers is particularly important within the field of digital preservation, where adherence to community-developed practices and standards is paramount to success » (Gengenbach et al., 2016, paragr. 9). De par cette relation étroite, les archivistes peuvent bénéficier d’une voix plus forte pour guider le développement de logiciels qui s’harmonisent avec leurs besoins précis et qui respectent les normes propres au domaine de la préservation numérique (Garderen, 2010a). Ceci étant dit, plus les institutions ont un contrôle effectif sur la solution d’archivage, plus les garanties en termes de conservation pérenne sont élevées (Brown, 2013). Contrairement aux logiciels propriétaires qui suivent un fonctionnement mal connu[8], voire tout à fait opaque, les logiciels « open source » permettent aux institutions de mémoire de faire preuve de transparence quant au traitement de leurs documents numériques (Conseil des académies canadiennes [CCA], 2015). En somme, nous pouvons affirmer que les logiciels libres et ouverts constituent des vecteurs de collaboration[9] intra-institutionnelle et inter-institutionnelle[10] (Rosa et al., 2017). Ils recèlent un énorme potentiel pour le partage continu des connaissances, permettant par le fait même aux institutions à vocation patrimoniale d’apprendre continuellement des autres et de mettre leurs expériences au service du savoir collectif : « The power of the community enables us to pool our expertise, learn from one another and achieve more than one memory institution could accomplish alone » (Clipsham, 2020, paragr. 8).

Exemple d’application: Archivematica, un outil parmi tant d’autres

L’outil sélectionné, à savoir Archivematica, est une plateforme de préservation numérique qui soutient le traitement automatisé des documents d’archives électroniques. Le projet est piloté par la société Artefactual Systems, une firme canadienne. Il se concrétise sous la forme d’une boîte à outils vouée à la construction de paquets d’informations[11] (SIP-AIP-DIP) conformes au modèle de référence OAIS (voir figure 1).

Figure 1.  Architecture technique d’Archivematica

En d’autres mots, il s’agit d’un logiciel « front-end », dans le sens où sa finalité n’est pas de fournir les paquets d’informations à diffuser, dits DIP, à la communauté d’utilisateurs cible par l’entremise d’une interface conviviale et épurée (Garderen, 2010b). Archivematica est développé en utilisant des briques logicielles ouvertes. Ces dernières sont intégrées dans les différents modules du logiciel et peuvent être mises à jour et configurées individuellement (Houston, 2015). Contrairement à une approche monolithique[12] classique, selon laquelle tous les composants d’un logiciel forment une entité indissociable, Archivematica recourt à des microservices qui, tout en étant séparés, fonctionnent en synergie pour accomplir les tâches lui incombant (Garderen et Mumma, 2013). Autrement dit, l’architecture de microservices se manifeste par la fragmentation d’Archivematica en plusieurs composants indépendants qui exécutent chaque processus sous forme de service (voir figure 2).

Figure 2. Architecture fonctionnelle et flux de travail d’Archivematica. Adapté de « Archivematica: Using Micro-Services and Open-Source Software to Deliver a Comprehensive Digital Curation Solution (p. 147, fig. 1) », par P. V. Garderen, 2010. © P. V. Garderen. Adapté avec permission.

Contrairement au modèle OAIS, dont le flux de travail débute à l’ingestion, Archivematica met en exergue son précurseur, c’est-à-dire le préversement (transfer), qui consiste essentiellement à effectuer les traitements nécessaires à la normalisation des données avant leur versement dans le dépôt numérique proprement dit (voir figure 3).

Figure 3. Mise en correspondance des entités fonctionnelles du modèle de référence OAIS avec les modules d’Archivematica. Adapté de An Introduction to AtoM, Archivematica and Artefactual Systems (diapositive 28) [communication orale], par D. Gillean, décembre 2016. © D. Gillean. Adapté avec permission.

Dans cette perspective, les données et métadonnées soumises par le producteur sont encapsulées en un SIP (Jordan et McLellan, 2016). Ensuite, la fonction « Ingest » prend la relève. Dès lors, les SIP traversent une série de processus incluant, de façon non exhaustive, la migration des fichiers vers des formats normalisés appropriés pour créer des copies maîtresses à des fins de préservation, la création de copies de diffusion, etc. (Trujillo et al., 2017). Une panoplie d’outils externes sont mobilisés pour mener à bien chacun de ces processus (voir figure 1).

À défaut d’être une solution de stockage à part entière, les AIPs créés par l’entremise d’Archivematica peuvent être sauvegardés au sein de différents systèmes de stockage disparates. Pour ce faire, le logiciel doit être interfacé avec une infrastructure matérielle (Artefactual Systems, 2019). À cet égard, les utilisateurs ont l’embarras du choix :  disque dur local, serveur de stockage en réseau (NAS), réseaux de stockage répliqués tels que LOCKSS, services d’infonuagique commerciaux (Microsoft Azure, Amazon S3, etc.) et solutions de stockage distribué (iRODS, Bycast), etc.

En ce qui concerne le module intitulé « Preservation planning », le logiciel s’appuie sur un registre central de formats de fichiers recommandés pour la préservation à long terme. Il s’agit plus précisément d’une base de données par l’entremise de laquelle les utilisateurs peuvent définir quelles stratégies le logiciel doit entreprendre à l’endroit d’un format particulier (Ingram, 2019). À titre d’exemple, on peut paramétrer Archivematica dans l’optique qu’un fichier JPEG soit migré, à l’entrée dans le système, en un fichier TIFF en vue d’une préservation à long terme. Ce répertoire, baptisé Format Policy Registry (FPR), revêt une certaine flexibilité et peut conséquemment être adapté aux politiques en vigueur au sein de l’organisation (McLellan, 2011; Rieger, 2007).

Enfin, comme mentionné précédemment, le logiciel n’est pas destiné à couvrir la fonction diffusion de l’archivistique contemporaine (Mitcham, 2015). Néanmoins, Archivematica permet, via son module « Access », le téléversement des DIPs vers plateformes de diffusion externes telles que AtoM, ArchivesSpace, CONTENTdm et Archivists’s Toolkit.

Méthodologie

Documentation disponible

Comme nous l’avons mentionné précédemment, il se révèle que la littérature traitant de l’évaluation de logiciels de préservation numérique est très peu abondante. Partant de ce fait, délimiter des indicateurs de qualité d’un produit logiciel voué à la pérennisation des archives numériques est une tâche d’autant plus délicate que ces critères sont tributaires du contexte institutionnel dans lequel ledit logiciel sera déployé ainsi que de la politique de préservation numérique sous-jacente (Brown, 2013). C’est pourquoi, dans les limites de ce travail, nous nous sommes référés à des textes se trouvant en périphérie. L’outil intitulé Trustworthy Repositories Audit & Certification: Criteria & Checklists (TRAC), développé par le Research Libraries Group, l’OCLC[13] et la NARA[14], s’est avéré utile dans la mesure où il offre une liste de critères permettant d’auditer les systèmes d’archivage numérique à long terme. De même, une grille d’évaluation élaborée par le projet Preserving Digital Objects with Restricted Resources (POWRR) nous a fourni d’éloquentes pistes de réflexion.

Conception de la grille d’évaluation

Afin d’élaborer notre grille d’évaluation, nous avons pris, comme postulat de départ, les métriques figurant dans le document Trustworthy Repositories Audit & Certification: Criteria & Checklists. La démarche de réflexion qui fut suivie (voir annexe 1) se décline en deux étapes subséquentes. Tout d’abord, nous avons finement scruté le document dans son intégralité afin de déterminer quelles métriques pourraient être extrapolées aux logiciels de préservation numérique. En d’autres mots, pour chaque item figurant dans la liste, nous nous sommes posé la question suivante : comment un logiciel pourrait-il assister une institution de mémoire à répondre à cette exigence ? Par la suite, les exigences qui nous semblaient insoutenables par un logiciel ont été écartées alors que celles pouvant être pleinement atteintes ont été retenues et annotées. Le fruit de cette réflexion s’est concrétisé en la formulation explicite des critères composant la grille. Plus largement, cette dernière consiste en un amalgame des critères extraits de chacun des outils énumérés ci-haut. En procédant de la sorte, nous avons pu pallier les « brèches » repérées au sein de certains outils et conséquemment couvrir un plus large spectre de manière à aboutir à une grille polyvalente et multidimensionnelle.

En ce qui a trait à la structuration hiérarchique de la grille, celle-ci est constituée de trois paliers suivant une logique du général au particulier :

Niveau 1 –       Les catégories ;

Niveau 2 –                   Les groupes de critères ;

Niveau 3 –                               Les critères individuels.

Par conséquent, les critères ont été judicieusement répartis à travers plusieurs groupes reflétant, du moins en partie, les quatre domaines fonctionnels de la matrice nommée Levels of Digital Preservation, ayant été conçue par la NDSA[15]. Ne souhaitons pas se borner à ces quatre catégories, d’autres y furent juxtaposées.

Enfin, dans le but d’éviter l’ambiguïté inhérente à la polysémie de certains termes employés dans la grille et ainsi ne laisser place à aucune interprétation, la terminologie retenue fut celle du modèle de référence OAIS.

Modalités d’accès à Archivematica

Pour ce qui est de l’accès au logiciel, une machine virtuelle s’adressant principalement aux utilisateurs désireux de tester Archivematica est disponible (Weddle, 2011). Une fois que l’installation fut complétée en bonne et due forme, il fut possible d’explorer ce dernier via notre navigateur Web.

Critères, poids et pondération

Étant donné que la présence d’une fonction au sein d’un logiciel ne nous renseigne aucunement sur la qualité de sa mise en œuvre, nous avons opté pour aménager une matrice de décision (Decision Matrix) qui sera utilisée selon la méthode des sommes pondérées (Weighted sum Model) ; c’est aussi un procédé qui a fait ses preuves. De cette façon, l’éventuelle comparaison entre plusieurs logiciels de préservation numérique s’avérera moins ardue.

Pour chaque critère, un poids a été attribué. Cette pondération quantitative de chacun des critères, préalablement à leur évaluation, permet de calibrer la grille en fonction de la pertinence et de l’importance des critères au regard des besoins ressentis par une institution spécifique. Une échelle de trois poids fut élaborée, comme présentée dans le tableau 1.

Poids

Signification

3

Critère obligatoire : critère essentiel ou primordial

2

Critère souhaitable : critère important ou hautement désirable

1

Critère optionnel : critère désirable, mais pas important

Tableau 1 – Échelle de poids des critères d’évaluation

Certains critères appellent une évaluation binaire : critère respecté ou non. Le cas échéant, seules les pointages 0 et 7 ont un sens et sont à inscrire dans les cases de la grille. Chacune des fonctionnalités attendues d’un dépôt numérique fiable, explicitées sous la forme de critères dans la grille d’analyse à l’annexe 2, sera alors évaluée. Après observation et manipulation directe de la fonctionnalité dans le logiciel, un certain nombre de points sera attribué à tous les critères. Plus précisément, pour que la fonctionnalité s’exprime, les circonstances seront recréées dans le logiciel. L’évaluation repose ensuite sur l’expérience du testeur et le fait de savoir si la fonction répond bien au besoin exprimé ; autrement dit, le degré d’utilisabilité des fonctionnalités dans le logiciel. Les points attribués à chaque occurrence varient selon une échelle allant de 0 à 7 (voir tableau 2). À noter que cette échelle est utilisée à la fois pour les critères relatifs aux qualités fonctionnelles ainsi que pour ceux concernant la communauté. Que désignons-nous par communauté ? Il s’agit de l’ensemble des parties prenantes impliquées dans le développement et l’utilisation du logiciel libre.[16] Ainsi, une portion considérable de la grille d’évaluation (voir annexe 2) est dédiée à analyser la communauté « archivematicienne ».

Pointage

Signification

7

Remarquable – aucune lacune décelée

6

Excellent – peu d’améliorations requises

5

Très bien

4

Bien

3

Satisfaisant, mais avec possibilité d’amélioration considérable

2

À peine acceptable

1

Très rudimentaire – non désirable

0

Non disponible

 Tableau 2 – Pointage des critères d’évaluation

Pour récapituler, les fonctionnalités d’Archivematica furent évaluées selon une série de 92 critères. Ces critères représentent en quelque sorte les exigences de préservation numérique minimales qui doivent caractériser le flux de travail d’une institution d’archives. Ces critères sont regroupés en 14 catégories distinctes. Outre les caractéristiques fonctionnelles, la communauté fut également évaluée en fonction de 31 critères. Ces derniers sont regroupés en 2 catégories. Il importe notamment de souligner que l’évaluation d’Archivematica fut menée à travers le prisme d’une petite institution d’archives disposant de peu de ressources financières et d’une infrastructure technologique rudimentaire. Cette approche se justifie en raison des contraintes qui pèsent sur ce genre d’institutions dans l’exercice de leur mission, ce qui fait en sorte que les logiciels libres et ouverts représentent pour elles une « viable solution for digital preservation » (McNally, 2017, paragr. 17).

En principe, il faut reconnaître que cette méthode renferme un certain degré de subjectivité (par l’assignation des poids aux critères et par l’attribution de points à la suite de l’évaluation concrète de chaque critère). En pratique, les institutions d’archives pourront adapter les critères et les poids à leur propre réalité. Puisque cette matrice décisionnelle n’est pas destinée à fournir une comparaison indépendante d’un cadre institutionnel spécifique, les critères peuvent facilement être « repondérés » à l’aune des priorités d’autres institutions. Autrement dit, les institutions qui amorcent leur quête dans l’univers de la préservation numérique peuvent choisir de reprendre en intégralité la méthode suggérée ou seulement les parties qui leur apparaissent les plus pertinentes.

Scénarios de test

À priori, une série de quatre scénarios distincts fut élaborée. Ceux-ci, qui s’articulent autour de diverses situations hypothétiques, sont construits de façon à être représentatifs de la réalité des institutions d’archives. Ces cas de figure, qui encadrent exclusivement le processus d’exécution des tests de la catégorie 2.0 intitulée « Ingestion », visent à refléter le plus fidèlement possible les formes multiples que revêtent les archives en format numérique. C’est la raison pour laquelle ils couvrent une large gamme de formats de fichiers qui varient en « voluminosité », c’est-à-dire en taille. Pour résumer, les points attribués à chacun des critères de la catégorie 2.0 sont tributaires du degré de réussite de ces quatre scénarios, qui sont présentés ci-après. Ces derniers incluent l’ingestion[17] :

Calcul des scores

Calcul des scores des critères

Pour calculer les scores de chaque critère, il suffit de multiplier les points obtenus de chaque critère par le poids préalablement défini.

Score = Pointage x Poids

Calcul des scores des catégories

Dans la mesure où les critères sont colligés en catégories, un poids est également assigné à chaque catégorie pour désigner son importance relative dans l’évaluation. Le score d’une catégorie est obtenu en additionnant les scores de tous les critères puis en divisant la somme des poids de tous les critères dans la catégorie.

Calcul du score final

Quant à lui, le score final est calculé en additionnant les scores de toutes les catégories puis en divisant la somme de leur poids.

Conclusion

Pour boucler le tout, ce travail a mis en lumière dans un premier temps l’hétérogénéité des solutions logicielles destinées à la préservation numérique. Nous avons ensuite exploré les aléas auxquels se heurtent les institutions patrimoniales lorsque leur écosystème numérique repose uniquement sur des logiciels propriétaires. De façon plus terre à terre, le survol d’Archivematica nous a permis de constater qu’il est difficile d’en faire le tour et que ce logiciel comporte de nombreuses ramifications et potentiels en termes d’interopérabilité. Enfin, les points saillants du cadre de réflexion et de la méthodologie qui ont mené à l’élaboration de la grille d’évaluation ont été décortiqués. Nous avons également tenté de démonter dans notre travail que « [n]o one tool is the solution to your digital preservation problems » (Mumma, 2018, diapositive 2). En ce sens, Archivematica est loin de constituer un remède universel pour résoudre tous les maux de tête causés par la pérennisation des archives numériques. Comme nous l’avons évoqué plus haut, Archivematica n’embrasse pas de façon holistique tous les chaînons de la préservation numérique. Il n’empêche qu’il s’agit d’une solution particulièrement alléchante aux yeux des institutions de mémoire, du fait des innombrables possibilités de coopération qu’elle permet. Chose certaine, la philosophie sous-jacente aux logiciels libres et ouverts entraîne un changement radical dans la discipline archivistique puisqu’elle prêche une gouvernance distribuée en réseau et l’abolition des silos qui étaient auparavant fermés entre les bibliothèques, archives et musées. En effet, ce mouvement « open source » s’inscrit dans la mouvance visant à mutualiser les infrastructures de stockage et les efforts de préservation numérique.

Dans le contexte économique actuel, nous nous devons de faire le bon choix d’emblée. C’est pourquoi il s’avère primordial de se doter de lignes directrices qui nous permettront d’atteindre pleinement cet objectif. Au terme d’une démarche réflexive, nous avons concrétisé l’atteinte de notre but ultime : concevoir une grille d’évaluation pour les logiciels de préservation numérique.

Au cours de cette recherche, nous avons notamment constaté le peu de documentation récente traitant de l’évaluation de logiciels libres et ouverts dédiés à la préservation numérique. Serait-ce dû au fait que les milieux et pratiques diffèrent trop les uns des autres? Dans cette lignée, il serait intéressant qu’un comité d’experts en la matière soit formé pour élaborer les bases techniques de l’évaluation de ce genre de logiciels. Plusieurs autres zones restent ombragées. Qu’en est-il des raisons pour lesquelles certaines institutions d’archives sont réticentes face à l’adoption de ce genre de logiciels ? Dans une étude ultérieure, il serait intéressant de se pencher sur un examen plus approfondi de ces facteurs. Il serait profitable de pousser la démarche encore plus loin et de sonder les institutions d’archives canadiennes ou québécoises afin d’obtenir un aperçu de ces motifs. En somme, quelles que puissent être les opinions cultivées à l’égard de la contribution des logiciels libres et ouverts en matière de préservation numérique, relevons pour conclure avec Christopher Lee que :

There are also numerous organizational, economic and technical issues related to digital preservation that won’t go away, simply because we use OSS. It is simply one piece in a much bigger puzzle. As a profession committed to promoting future access to culturally significant documentation in all of its forms, however, we should become much more intimately aware of and engaged in OSS activities. I would rather not be the one who has to explain to archivists in 2050 why we didn’t (Lee, 2001, dernier paragraphe du texte).

***

Documents à télécharger:

Grille de référence – ANNEXE1_reflexion_criteres_evaluation

Grille de référence – ANNEXE2_exemple_grille_evaluation

***

*Ce billet est tiré d’un travail étudiant réalisé dans le cadre de du cours GLIS642 Preservation Management, cours donné à l’automne 2020 par François Dansereau à l’Université McGill.

Bibliographie

Artefactual Systems. (2019). Archivematica Information Sheet. https://www.artefactual.com/wp-content/uploads/2019/07/Archivematica-information-sheet-2019.pdf

Barve, S. et Prasad, A. (2010). An evaluation of open source software: For building digital libraries. VDM Publishing.

Bibliothèque nationale de France. (s.d.). Collections numériques préserves dans SPAR : filières et modèles. BnF. https://www.bnf.fr/fr/collections-numeriques-preservees-dans-spar-filieres-et-modeles

Blewer, A., Romkey, S. et Spencer, R. (2019). Archivematica as a case study for sustained digital preservation. Dans M. Ras, B. Sierman et A. Puggioni (dir.), iPRES 2019: Proceedings of the 16th International Conference on Digital Preservation (p. 126-133). Dutch Digital Heritage Network.

Bouthillier, E. (1997). Instrument d’évaluation de prologiciels en gestion documentaire. Archives, 29(1), 99-121.

Brown, A. (2013). Practical digital preservation: A how-to-guide for organizations of any size. Facet Publishing.

Burns, J. E. (2018). Information as capital: The commodification of archives and library labor. VRA Bulletin, 45(1), 1-11.

Cifor, M. (2016). Affecting relations: Introducing affect theory to archival discourse. Archival Science, 16, 7-31. https://doi.org/10.1007/s10502-015-9261-5

Clipsham, D. (2020, 13 juin). DROID, an open-source tool for digital archives. International Council on Archives blog. https://blog-ica.org/2020/06/13/droid-an-open-source-tool-for-digital-archives/

Comité consultatif pour les systèmes de données spatiales. (2012). Modèle de référence pour un Système ouvert d’archivage d’information (OAIS), CCSDS, 650.0-M-2(F), Livre Magenta. https://public.ccsds.org/Pubs/650x0m2(F).pdf

Council of Canadian Academies. (2015). Leading in the digital world: Opportunities for Canada’s memory institutions. https://cca-reports.ca/reports/leading-in-the-digital-world-opportunities-for-canadas-memory-institutions/

Fresa, A., Justrell, B. et Prandoni, C. (2015). Digital curation and quality standards for memory institutions: PREFORMA research project. Archival Science, 15(2), 191-216. https://doi.org/10.1007/s10502-015-9242-8

Garderen, P. V. (2010a). Archivematica: Lowering the barrier to best practice digital preservation. Archiving Conference, (3), 39-41.

Garderen, P. V. (2010b). Archivematica: Using micro-services and open-source software to deliver a comprehensive digital curation solution. Dans A. Rauber, M. Kaiser, R. Guenther et P. Constantopoulos (dir.), iPRES: Proceedings of the 7th International Conference on Preservation of Digital Objects (p. 145-149). Austrian Computer Society.

Garderen, P. V. et Mumma, C. C. (2013). Realizing the Archivematica vision: Delivering a comprehensive and free OAIS implementation. Dans J. Borbinha, M. Nelson et S. Knight (dir.), Proceedings of the 10th International Conference on Preservation of Digital Objects (p. 84-87). Bibliothèque nationale du Portugal.

Gengenbach, M., Peltzman, S., Meister ,S., Graham, B., Waugh, D., Moran, J., Seifert, J., Dowding, H. et Carleton, J. (2016). OSS4EVA: Using open-source tools to fulfill digital preservation requirements. The Code4Lib Journal, (34).

Gillean, D. (2016, 2 décembre). An Introduction to AtoM, Archivematica and Artefactual Systems [communication orale]. Higher Education Archive Programme Network Meeting, Londres, Royaume-Uni. https://www.slideshare.net/accesstomemory/an-introduction-to-atom-archivematica-and-artefactual-systems

Hoe-Lian Goh, D., Chua, A., Anqi Khoo, D., Boon-Hui Khoo, E., Bok-Tong Mak, E. et Wen-Min Ng, M. (2006). A checklist for evaluating open source digital library software. Online Information Review, 30(4), 360- 379.

Houston, B. (2015, 2 mars). Archivematica. The American Archivists Review Portal. https://reviews.americanarchivist.org/2016/07/02/archivematica/

Hurley, G. (2016). Community archives, community clouds: Enabling digital preservation for small archives. Archivaria, 82, 129-150.

Hurley, G. (2018, 9 février). Bring out yer SIPs: An Introduction to Digital Preservation with Archivematica [communication orale]. iSkills Workshop, Toronto, ON, Canada. https://inforum.library.utoronto.ca/sites/inforum.library.utoronto.ca/files/course_files/winter2018-archivematica-slides.pdf

Hurley, G. et Shearer, K. (2019). Final report of the survey on digital preservation capacity and needs at Canadian memory institutions, 2017-18. Canadian Association of Research Libraries. https://www.carl-abrc.ca/wp-content/uploads/2019/11/Digital_preservation_capacity_finalreport_EN-1.pdf

Ingram, C. (2019, 7 novembre). Piloting institutional digital preservation. Jsic Open Research Hub. https://researchdata.jiscinvolve.org/wp/2019/11/07/piloting-institutional-digital-preservation/

Jimerson, R. C. (2007). Archives for all: Professional responsibility and social justice. The American Archivist, 70(2), 252-281. https://doi.org/10.17723/aarc.70.2.5n20760751v643m7

Jordan, A. L. (2011). Evaluating open source digital preservation systems: A case study. Midwest Archives Conference Newsletter, 39(2), 17-19.

Jordan, M. (2013). Automating the preservation of electronic theses and dissertations with Archivematica. Dans J. Borbinha, M. Nelson et S. Knight (dir.), Proceedings of the 10th International Conference on Preservation of Digital Objects (p. 304-307). Bibliothèque nationale du Portugal.

Jordan, M. et McLellan, E. (2016). PREMIS in Open-Source Software: Islandora and Archivematica. Dans A. Dappert, R. S. Guenther et S. Peyrard (dir.), Digital Preservation Metadata for Practitioners: Implementing PREMIS (p. 227- 239). Springer.

Lee, C. (2001). Open-source software: A promising piece of the digital preservation puzzle. Midwest Archives Conference Newsletter, 29(2), 26-28.

Madalli, D. P., Barve, S. et Amin, S. (2012). Digital preservation in open-source digital library software. The Journal of Academic Librarianship, 38(3), 161-164. https://doi.org/10.1016/j.acalib.2012.02.004

Matusiak, K. K., Taylor, A., Newton, C. et Polepeddi, P. (2017). Finding access and digital preservation solutions for a digitized oral history project: A case study. Digital Library Perspectives, 33(2), 88-99.

McLellan, E. (2011, 26 octobre). Open-source software for archives: Archivematica and ICA-AtoM [communication orale]. UBC Open Access Week, Vancouver, C.-B., Canada. https://open.library.ubc.ca/cIRcle/collections/ubclibraryandarchives/67656/items/1.0077849

McLellan, E. (2016). Implementing rights metadata for digital preservation. Dans A. Dappert, R. S. Guenther et S. Peyrard (dir.), Digital preservation metadata for practitioners: Implementing PREMIS (p. 151- 160). Springer.

McNally, T. (2017, 23 janvier). Practical digital preservation: In-house solutions to digital preservation for small institutions. Bloggers!. https://saaers.wordpress.com/2017/01/23/practical-digital-preservation-in-house-solutions-to-digital-preservation-for-small-institutions/

Mitcham, J. (2012, 13 septembre). Installing Archivematica …and running out of memory. Digital Archiving at the University of York. https://digital-archiving.blogspot.com/2012/09/installing-archivematica-and-running_77.html

Mitcham, J. (2013, 11 décembre). My digital preservation Christmas wish list. Digital Archiving at the University of York. https://digital-archiving.blogspot.com/search?q=my%20digital%20preservation%20christmas%20wish

Mitcham, J. (2015, 16 janvier). The first meeting of Archivematica UK users (or explorers). Digital Archiving at the University of York. https://digital-archiving.blogspot.com/2015/01/the-first-meeting-of-archivematica-uk_73.html

Mitcham, J. (2015, 28 août). Enhancing Archivematica for research data management. Digital Archiving at the University of York. https://digital-archiving.blogspot.com/2015/08/enhancing-archivematica-for-research_97.html

Morrisey, S. (2010). The economy of free and open source software in the preservation of digital artefacts. Library Hi Tech, 28(2), 211-223. https://doi.org/10.1108/07378831011047622

Müller, T. (2012). Choisir un SIGB libre. Les Éditions ASTED.

Mumma, C. C. (2018, 15-16 octobre). Digital Preservation Tools [communication orale]. Digital Directions, Atlanta, Georgie, États-Unis. https://tdl-ir.tdl.org/bitstream/handle/2249.1/156337/Digital%20Preservation%20Tools%20-%20NEDCC%20Digital%20Directions%202018.pdf?sequence=1

Nahuet, R. et Roy, A. (2016, 15 juin). L’information et ses valeurs dans le monde numérique : entre commodité et bien commun [communication orale]. Congrès de l’Association des archivistes du Québec, Québec, Québec, Canada. http://congres.archivistes.qc.ca/wp-content/uploads/2016/08/Information_Commodite_20160530.pdf

National Digital Stewardship. (s.d.). Levels of Digital Preservation. NDSA. https://ndsa.org/publications/levels-of-digital-preservation/

Neugebauer, T., Lasou, P., Kosavic, A. et Walsh, T. (2019). Digital preservation functionality in Canadian repositories. Canadian Association of Research Libraries. https://www.carl-abrc.ca/wp-content/uploads/2019/12/orwg_report2_preservation_repos_en.pdf

Owens, T. (2012, 16 octobre). Archivematica and the open source mindset for digital preservation Systems. The Signal. https://blogs.loc.gov/thesignal/2012/10/archivematica-and-the-open-source-mindset-for-digital-preservation-systems/

Prom, C. (2010, 15 janvier). Installing OAIS software: Archivematica. Pratical E-Records: software and tools for archivist. https://e-records.chrisprom.com/archivematica/

Rieger, O. Y. (2007). Select for success: Key principles in assessing repository models. D-Lib Magazine, 13(7/8), 1-8.

Rinehart, A. K., Prud’homme, P.-A. et Huot, A. R. (2014). Overwhelmed to action: Digital preservation challenges at the under-resourced institution. OCLC Systems & Services : International digital library perspectives, 30(1), 28-42. https://doi.org/10.1108/OCLC-06-2013-0019

Rosa, C. A., Craveiro, O. et Domingues, P. (2017). Open source software for digital preservation repositories: A survey. International Journal of Computer Science & Engineering Survey, 8(3), 21-39.

Stewart, K. et Breitwieser, B. (2019). SCOPE: A digital archives access interface. The Code4Lib Journal, (43).

Trujillo, S., Bergin, M., Jessup, M., Radding, J. et McGowan, S. W. (2017). Archivematica outside the box: Piloting a common approach to digital preservation at the Five College Libraries. Digital Library Perspectives, 33(2), 117-127.

Weddle, B. (2011, 20 avril). Installing Archivematica. L’archivista. http://larchivista.blogspot.com/2011/04/installing-archivematica.html

***

[1] Association des bibliothèques de recherche du Canada.

[2] En guise d’ordre de grandeur, l’exécution de la requête “digital preservation” dans SourceForge (https://sourceforge.net/), la plus importante plateforme de développement de projets « open-source », nous retourne une centaine résultats.

[3] Ces mécanismes garantissant l’exclusivité ont aussi pour effet d’exercer une pression accrue sur les institutions de mémoire afin qu’elles adoptent une approche de « marché » au détriment de leur mandat de préserver l’intérêt public.

[4] En admettant ceci, l’on convient que la conception traditionnelle de l’archiviste comme un gardien de la mémoire s’actualise pour devenir un « courtier » en valeurs. Cette figure émergente de l’archiviste que je propose ici va également dans le même sens que les allégations de Jasmine E. Burns selon lesquelles les « […] digital surrogate[s] [are] placed behind a paywall and revenue is absorbed by the vendor » (Burns, 2018, p. 9).

[5] Selon Randall Jimerson, cette propriétarisation entrave la démocratisation du savoir historique et contribue à « […] bolster the prestige and influence of the powerful elites in societies » (Jimerson, 2007, p. 254).

[6] Dans un jargon informatique plus classique : « There is no vendor lock-in […] » (Stewart et Breitwieser, 2019, conclusion). Dans le contexte de ce travail, l’enfermement propriétaire est une situation où une institution de mémoire est tellement dépendante d’un vendeur qu’elle ne peut pas exporter et migrer son contenu sans s’exposer à d’importants coûts directs, indirects ou à des inconvénients majeurs.

[7]En général, il n’y a aucun frais à acquitter pour les droits de licence. L’absence de barrières monétaires pour disposer de ces logiciels constitue certes l’un des facteurs clés ayant permis aux institutions de taille modeste ou sous-financées d’emboîter le pas vers la construction de dépôts numériques fiables.

[8] Face à cet épais « brouillard » qui obstrue les opérations de préservation exécutées sur lesdits documents, de sérieuses préoccupations en matière de sécurité et de protection des données confidentielles émergent.

[9] La philosophie qui sous-tend l’univers « open-source » fait écho à la vision qu’entretient Andrew Flinn à l’endroit des principes gouvernant la collaboration avec les  archives de communauté, dans le sens où il est question de « partnerships [that] are equitable, proceed from a position of mutual respect and recognition of the skills and expertise on both sides, and allow the organizations to retain their independence […] with knowledge and benefits flowing both ways » (Flinn, 2011, cité dans Hurley, 2016, p. 144). De toute évidence, cette vision ne se concrétisera pas dans le cadre de partenariats avec des éditeurs commerciaux.

[10] Afin d’illustrer nos propos, imaginons le cas de figure suivant : une fois qu’un logiciel libre et ouvert a été adapté pour répondre aux besoins spécifiques d’une institution donnée, cette solution personnalisée peut être partagée à l’échelle de la communauté archivistique dans son ensemble pour ensuite être potentiellement récupérée et réutilisée par d’autres organismes éprouvant des besoins similaires.

[11] « Un paquet d’informations est un ensemble composé d’un document numérique et de tous les types de métadonnées nécessaires à le rendre accessible et compréhensible sur le long terme. C’est un ensemble indissociable afin de garantir la préservation de ce document » (Bibliothèque nationale de France [BnF], s.d.).

[12] « En génie logiciel, une application monolithique décrit un logiciel conçu sans modularité. La modularité est souhaitable, en général, car elle supporte la réutilisation d’une partie de la logique d’application et facilite également l’installation, l’administration et la maintenance tout en permettant le traitement ou la modification de parties sans nécessiter le remplacement complet de l’application » (Müller, 2012, p. 30).

[13] Online Computer Library Center, organisation à but non lucratif internationale au service des bibliothèques.

[14] National Archives and Records Administration, agence responsable des archives produites ou reçues par les organes du gouvernement fédéral américain.

[15] National Digital Stewardship Alliance, consortium d’institutions engagées dans la préservation à long terme de l’information numérique.

[16] La communauté est composée de personnes (physiques ou morales) allant des développeurs, qui maintiennent le code source et qui le font évoluer, aux utilisateurs, en passant par les contributeurs qui peuvent travailler à l’effort collectif en détectant les failles, en proposant des améliorations ou en parrainant des tâches telles que la documentation ou la traduction (Müller, 2019).

[17] À noter que nous n’avons pas tenté d’ingérer simultanément un nombre exorbitant de fichiers puisque la machine virtuelle d’Archivematica est conçu uniquement pour des tests légers (Prom, 2010). Voici d’ailleurs les formats de fichiers qui furent testés : wav, mpeg, docx, pdf, pptx, mp3, txt, svg et flv. Quant à la taille des fichiers, celle-ci fluctue entre une centaine d’octets à approximativement 2 Go.

Une réflexion sur “Grille de référence pour l’évaluation de logiciels de préservation numérique

  1. Texte très intéressant. un excellent guide pour moi dans mes futures actions. Merci Alex

Laisser un commentaire