Innovations

L’adaptabilité du CIDOC CRM pour l’archivistique: un exploration du projet ICON

par Renata Jafiarova, étudiante à l’EBSI

L’archivistique doit évoluer pour répondre aux exigences d’une ère technologique caractérisée par le web sémantique, les données liées et par conséquent, le besoin d’assurer l’interopérabilité des systèmes informatiques. La création d’un nouveau modèle de description est donc nécessaire dans l’ère actuelle, quel que soit le domaine (archives, bibliothèques, musées, etc.). Dans cet essai, j’explorerai l’ontologie CIDOC CRM comme une alternative viable, car elle représente un langage expansif et s’étend à tous les domaines de l’activité humaine. Cette ontologie a été adaptée avec succès à d’autres domaines du patrimoine culturel. Pour mieux illustrer mes propos, je vais examiner les résultats du projet ICON des Archives nationales du Portugal dans le but d’adapter cette ontologie au domaine de l’archivistique.

Le Web Sémantique

Pour comprendre le fonctionnement du CIDOC CRM, nous devons prendre en considération les bases du web sémantique. Le web sémantique représente le passage d’un web basé sur des documents à un web basé sur des données. Il repose sur deux concepts fondamentaux identifiés par Philippe Michon (2017). Le premier concept est une identification précise de tous les éléments compilés sur le web : concrètement un Uniform Resource Identifier (URI) qui permet de localiser précisément une ressource, que ce soit une personne, un concept, ou un événement, etc. À ne pas confondre avec une Uniform Resource Locator (URL) qui pointe directement vers une page web spécifique. Deuxièmement, ces données doivent être liées afin de leur attribuer des informations afin qu’une machine (ordinateur) puisse interpréter ces données en analysant les données associées. Cette configuration est présentée sous une forme triplet Sujet-objet- sujet qui est appelée Ressource Description Framework (RDF). Le Web sémantique fonctionne en incluant des URI dans une structure RDF où nous inscrivons nos données sur un vaste nuage de données liées. Pour améliorer le repérage des archives sur le web sémantique, il faudra d’abord créer des URI pour représenter des données spécifiques propres aux institutions d’archives. Cette initiative est entreprise par la mesure 113 du Plan culturel numérique du Québec qui a comme objectif d’« organiser les connaissances sur le patrimoine culturel québécois en définissant et mettant en relation les concepts associés » et de « faciliter l’exploitation des données par des outils numériques » (Québec, 113). Cependant, le plus avantageux sera de lier ces données aux URI existants dans un fichier d’autorité afin qu’il puisse être davantage contextualisé. Cette initiative fait partie de la mesure 111 du Plan culturel numérique du Québec. Dans cette optique, l’ontologie CIDOC-CRM présente une option intéressante pour la création d’un nouveau modèle de description des archives.

Le modèle CIDOC-CRM

Le modèle de référence conceptuel (CRM) du CIDOC est une ontologie extensible créée par le Conseil International des musées (ICOM) pour représenter les données du patrimoine culturel et les lier à leurs informations. En 2006, il a été reconnu comme norme ISO 21127 pour l’intégration de l’information dans le domaine du patrimoine culturel (CIDOC, 2021). Même si cette ontologie a été créée dans le domaine de la muséologie, CIDOC-CRM est une plateforme fédératrice et participative (Michon, 2018) qui permet un alignement de vocabulaire tout en laissant un espace pour créer des outils qui facilitent la mise en commun avec d’autres schémas de métadonnées, par exemple la Encoded Archival Description (EAD) (Bountouri & Gergatsouilis, 2011). Plus précisément, la structure de CIDOC-CRM « se bâtit autour de la notion d’entité temporelle (un événement) afin de reconstruire et de lier des faits.» Au centre, du modèle CRM, un événement auquel s’attachent les autres objets : des agents, donc des entités humaines qui participent à l’événement ; et des objets physiques ou conceptuels « qui sont affectés ou font référence à l’événement »  (Michon, 2017).

CIDOC-CRM est intéressant à cause de son interopérabilité et son expressivité. Contrairement aux modèles descriptifs hiérarchiques actuels en archivistique comme le RDDA, un modèle de graphe multidimensionnel est beaucoup plus expressif, car il permet une association sémantique plus riche à tous les éléments de description, quelle que soit leur classe hiérarchique. Néanmoins, c’est important d’adapter cette ontologie pour rester fidèle au domaine de l’archivistique et à la non-ambiguïté de la description archivistique.

Le Projet ICON

Pour mieux illustrer comment un modèle ontologique basé sur CIDOC CRM peut être adapté aux archives, le projet ICON des Archives nationales du Portugal peut servir d’exemple. Le Directorat-Générale pour livres, archives, et bibliothèques (DGLB) est le service central sous l’administration de la nation portugaise, un modèle de gouvernance semblable à BAnQ. Un de leurs systèmes informatiques les plus extensifs est le DigitArq qui contient la description archivistique d’objets datant du IXe siècle à aujourd’hui. Le DGLB contient 3,5 millions d’enregistrements de métadonnées décrites avec les normes ISAD(G), ce qui est comparable à nos normes RDDA. L’objectif du projet ICON est de développer un modèle de données liées pour améliorer l’efficacité des services tout en restant conformes aux normes de l’ICA et de tenir en considération les applications destinées aux contributeurs, aux archivistes et au public. (Almeida & Runa, 2018)

En se basant sur une ontologie en forme de graphe, la mission du projet est de combler certaines lacunes des modèles hiérarchiques actuels en établissant des relations plus complètes entre les objets informationnels, et d’établir une représentation plus précise de l’espace et du temps (informations contextuelles) dans lesquels se trouvent ces documents d’archives. De plus, ce projet concerne la capacité d’intégrer la description archivistique à d’autres activités de gestion telles que la conservation, la reproduction de documents, les commandes de salles de lecture et l’aide à la référence. (Almeida & Runa, 2018)

En se fiant aux soucis des utilisateurs internes et externes, le projet ICON vise à améliorer l’infrastructure de données actuelles avec une stratégie efficace axée sur l’utilisateur final. Les trois préoccupations principales des utilisateurs étaient la granularité, les relations partitives entre niveaux de descriptions et l’atomisation des chaînes de texte.

La granularité définit à quel niveau de détail les connaissances devraient être représentées. Il existe une divergence dans le type et le détail des informations fournies à différents niveaux hiérarchiques des descriptions archivistiques.

Cependant, un modèle basé sur CIDOC CRM permet une plus grande flexibilité, car une instance peut appartenir à plus d’une classe de description. De plus, l’ontologie CIDOC CRM offre une solution à la dualité physique et conceptuelle de certains objets d’information avec les champs « Objet physique » (E28) et « Objet conceptuel » (E19).

La deuxième question évoquée par le projet ICON, qui concernait surtout les utilisateurs internes, est comment un modèle orienté objet peut préserver les relations partitives et leurs niveaux de description, qui est fondamental dans la description archivistique. Le projet ICON a constaté que la modélisation des relations du général au spécifique était assez simple, mais certaines dispositions devraient être prises, car la terminologie de CIDOC-CRM ne correspond pas toujours à celle des normes ISAD (G). Néanmoins, CIDOC-CRM a permis l’expression précise et complexe des relations entre les objets-information. À l’exception lors de la modélisation d’éléments descriptifs représentant des personnes morales, des personnes physiques et des familles. Étant donné que les relations entre les éléments se forment par le biais d’événements sur CIDOC CRM, elles ont tendance à être enchevêtrées dans un réseau de sous-catégories multipliées. Par exemple, il n’y a aucun moyen direct de décrire que certains membres de la famille sont des cousins et l’« acteur » (E39) devrait être lié par l’« événement » (E5) de la naissance ou des « activités » (E7) (Almeida & Runa, 2018). Ceci prouve qu’il est très encombrant à cause de la complexité des interrelations des membres d’un même groupe : dans une famille, les individus peuvent avoir différents types d’appartenance qu’il faut distinguer selon le ou les membre(s) du groupe familial auquel(s) ils sont apparentés (s’ils sont cousins, ils sont simultanément les neveux des parents de l’autre, et ainsi de suite). Par conséquent, cela impliquerait la multiplication de sous-groupes au sein du même groupe.   Néanmoins, cette question est actuellement travaillée par le CIDOC SIG (Special Interest Group) et est prise en charge par l’extension CRMsoc (2019).

L’un des plus grands défis serait d’obtenir des informations qui sont généralement décrites sous forme de texte, comme une notice biographique ou une histoire administrative. Toutes ces chaînes de texte devraient être atomisées pour être représentées dans des éléments descriptifs. Cela nécessiterait un changement important dans la méthodologie descriptive. Cependant, l’atomisation de ces éléments avec CIDOC-CRM contribuerait à l’enrichissement sémantique de la description archivistique et de l’intégrité des données, car elle permettrait de représenter plusieurs événements (et leurs informations associées) qui ne seraient pas enregistrés autrement, car ils ne sont implicites que dans des chaînes de texte. (Almeida & Runa, 2018)

Le Projet EPISA

Cependant, le projet ICON étant un exercice conceptuel, il est limité par l’absence de solutions de mise en œuvre concrètes. En conséquence, il a cédé la place au projet Entity and Property Inference for Semantic Archives (EPISA) dans lequel, avec une équipe d’experts en sciences informatiques, les archivistes de DGLAB entendent concevoir et prototyper une plateforme de connaissances source représentant des informations sur un modèle de date lié ainsi qu’incorporant des données de documents d’archives existantes.

Comme mentionné précédemment, puisque le CIDOC CRM fonctionne comme une plateforme participative, il a permis l’ajout d’extensions pour adapter le modèle aux usages archivistiques. C’est-à-dire le rendre plus compatible avec les normes ISAD(G). Ce nouveau modèle ontologique créé par le projet EPISA s’appelle ArchOnto. La première approche consistait à créer une extension de propriété de données pour faire face au nombre limité de propriétés de données dans CIDOC-CRM, en les utilisant pour capturer la sémantique des éléments à partir des descriptions associées aux différents objets d’archives.

Notez que la plupart de CIDOC CRM utilise la propriété d’objet utilisée pour relier les individus. D’autres extensions ont été créées pour prendre en compte des principes d’organisation bien établis dans les archives qui exigent que chaque unité de description se voie attribuer un niveau de description et que les niveaux soient hiérarchisés.

À partir de là, EPISA a développé cinq autres ontologies pour intégrer sur ArchOnto : ISAD Ontology, N-ary, DataObject et une ontologie pour connecter CIDOC CRM avec DataObject. L’ontologie ISAD rassemble les propriétés de données mentionnées ci-dessus, plutôt que de les inclure comme extensions CIDOC CRM, car cela nécessita une très grande quantité. L’ontologie ISAD contient également tous les éléments d’ISAD(G) qui seront atomisés avec CIDOC CRM afin d’avoir des descriptions plus granulées. L’ontologie N-ary permet de construire des instances qui ne sont pas binaires, par exemple qui connectent plus de deux individus. En se référant de l’exemple offert par ICON, N-ary peut potentiellement résoudre des problèmes tels que la représentation d’une famille, car cette ontologie permet de modeler une relation ternaire dans laquelle deux personnes peuvent avoir des rôles spécifiques dans un événement. Finalement, l’ontologie DataObject sert à valider les valeurs littérales utilisées dans les propriétés du nouveau modèle de données. Par exemple, DataObject permet que le typage des données soit très soigneusement traité sur ArchOnto car ils se situent à “l’interface entre les concepts de plus haut niveau du domaine et l’implémentation et la validation que les applications sont censées effectuer afin d’assurer la validité du graphe de connaissances” (Koch et al., 2020).

EPISA a mis en pratique plusieurs cas pilotes extraits de la base de données d’archives DigitArq en raison de sa diversité. Ils ont utilisé des archives de différents types de fonds présents dans la base de données, par exemple des trouvailles paroissiales, des archives judiciaires et un objet unique (classé comme trésor). Avec le développement du prototype ArchOnto, EPISA a conclu que CIDOC-CRM peut bien être étendu et utilisé comme modèle pour les archives. Il faut noter aussi qu’une attention particulière a été accordée aux propriétés essentielles à l’archivistique ainsi que pour les applications qui gèrent et donnent accès à leurs informations. Premièrement, en accommodant les informations existantes et à les transformer en données liées sans perdre leur intégrité. Deuxièmement, de créer un modèle intelligible, car le nouveau système doit favoriser la mise en œuvre peu importe la phase: lors de la migration d’information existante, quand les archivistes génèrent des nouveaux documents ou quand les archives sont directement enregistrées par le créateur.

Conclusion

En conclusion, il faut considérer que ce projet est toujours actif et il reste toujours beaucoup de paramètres à évaluer avec cette approche ontologique surtout comme la technologie continue à évoluer. Par exemple, il reste à voir comment le projet pourra mettre en œuvre la migration automatique des données, également au niveau des documents archivistiques qu’aux données des chaînes de textes dans la description. Sera-t-il possible de traduire le modèle graphique en algorithmes d’intelligence artificielle pour extraire des ressources automatiquement et déduire les relations entre les ressources? De plus, avec l’arrivée imminent du nouveau modèle Records in context (RiC), il serait intéressant de comparer ArchOnto qui est basé sur l’onotlogie CIDOC CRM au modèle RiC-CM. Étant développé dans le domaine archivistique, le modèle RiC était conçu avec la structure hiérarchique qui est impérative au domaine. Il possède également un grand nombre de propriétés dérivées de l’ontologie RiC- O, mais il n’a pas encore été déployé ni mis en pratique (ICA, 2021).

***

*Ce billet est une version révisée d’un travail réalisé dans le cadre du cours ARV1050 – Introduction à l’archivistique, donné au trimestre d’automne 2021 par Isabelle Dion à l’EBSI, Université de Montréal.

Note:

Une initiative de traduction du CIDOC CRM a été entreprise dans le milieu patrimonial francophone canadien afin de rendre ce standard disponible sous licence ouverte et gratuitement.

Gouvernement du Canada (2020). Traduction en français du CIDOC CRM. Bricaud, F., Hart, S., Mathieu, M.-E., Michon, P., St-Germain, M. et Blain, M.-P. https://chin-rcip.github.io/cidoc_crm_fr-ca/

Bibliographie

Almeida, M. J. d. & Runa, L. (2018) ICON project: Content Integration in P o r t u g u e s e N a t i o n a l A r c h i v e s U s i n g C I D O C – C R M . h t t p : / / cidoc.mini.icom.museum/wp-content/uploads/sites/6/2020/02/ CIDOC2018_paper_36.pdf

Bountouri, L. & Gergatsoulis, M. (2011). The Semantic Mapping of Archival Metadata to the CIDOC CRM Ontology. Journal of Archival Organization, 9(3-4), 174-207. DOI: 10.1080/15332748.2011.650124

CIDOC CRM – Special Interest Group (2021). Definition of the CIDOC Conceptual Reference Model. (v. 7.2). Bekiari,C., Bruseker, G., Doerr, M., Ore , C.-E., Stead, S. et Velios, A. https://www.cidoc-crm.org/sites/default/files/ cidoc_crm_version_7.2.pdf

CIDOC CRM – Special Interest Group (2019), Definition of the CRMsoc : An Extension of CIDOC CRM to support social documentation. (v 0.1). https:// cidoc-crm.org/crmsoc/sites/default/files/CRMsoc_20190326.pdf

International Council on Archives (2021) Records in Contexts: Conceptual Model (v. 0.2). Brouillon de consultation. https://www.ica.org/sites/default/files/ ric-cm-02_july2021_0.pdf

Koch, I. , Ribeiro, C. et Lopes, C. T.. (2020) ArchOnto, a CIDOC-CRM-Based Linked Data Model for Portuguese Archives. International Conference on Theory and Practice of Digital Libraries. Lecture Notes in Computer Science (vol. 12246). https://link.springer.com/chapter/10.1007/978-3-030-54956-5_10

Michon, P. (2017). Archivistique, histoire et Web sémantique : une approche interdisciplinaire basée sur l’événementiel. Archives, 47(1), 85–105. https:// doi.org/10.7202/1041827ar

Ministère de la Culture et des Communications du Quebec. (2021) Mesure 111– Mettre en place un plan d’action concernant les données sur les contenus culturels québécois. Plan culturel numérique du Quebec. http:// culturenumerique.mcc.gouv.qc.ca/111-mettre-en-place-un-plan-daction- concernant-les-donnees-sur-les-contenus-culturels-quebecois/

Ministère de la Culture et des Communications du Quebec. (2021) Mesure 113 – Élaborer une ontologie du patrimoine culturel québécois. Plan culturel numérique du Quebec. http://culturenumerique.mcc.gouv.qc.ca/elaborer-une-ontologie-du-patrimoine- culturel-quebecois/

Laisser un commentaire