Numérique

Le fonds d’un premier ministre canadien à l’ère du numérique

Par Maude-Emmanuelle Lambert et Alex Lavoie, Bibliothèque et Archives Canada

Introduction

En 2018, Bibliothèque et Archives Canada (BAC) a fait la première acquisition des archives personnelles et politiques de l’ancien premier ministre Stephen Harper. À ce jour, c’est le plus important ensemble de documents numériques créés et/ou conservés par un donateur privé acquis par BAC. En poste pendant près de dix ans, ce premier ministre et le personnel de son bureau auront généré approximativement 50 téraoctets de documents « né numériques ». À titre comparatif, les documents numériques dans les fonds des anciens premiers ministres Paul Martin et Jean Chrétien contiennent respectivement 300 et 37 gigaoctets. C’est également la première fois dans l’histoire des acquisitions de BAC, qu’un fonds de premier ministre comprendra plus de documents numériques qu’analogiques1.

Le Parti conservateur dirigé par Stephen Harper a été appelé à former trois fois le gouvernement (deux mandats minoritaires et un majoritaire). Ces archives créées entre février 2006 et novembre 2015, témoignent notamment de la fonction de premier ministre, des orientations de son gouvernement et de ses efforts pour les communiquer efficacement aux Canadien.n.es et aux partenaires internationaux2. Différents types d’outils numériques, importants dans notre vie de tous les jours, sont aussi utilisés par le Bureau du premier ministre dans ses opérations : le courrier électronique, la photographie et la vidéo, les comptes de réseaux sociaux et les sites internet.

Le projet des Archives du premier ministre Stephen Harper, financé pour une période de cinq ans, inclut la mise en place des infrastructures et des équipements nécessaires pour l’équipe archivistique, l’acquisition, le traitement archivistique, la préservation et l’accès de la clientèle à ces documents de formats variés et d’une complexité inégalée.

En tant que membres de l’équipe archivistique de ce projet, notre rôle est notamment d’assurer le traitement de ces archives, mais aussi de repousser les limites et faire avancer les compétences de BAC en matière d’évaluation, de gestion et de traitement de documents numériques.

Comment? En renouvelant les pratiques et en créant de nouveaux modèles et procédures pour le travail archivistique, notamment en définissant de nouveaux rôles et responsabilités. Ces procédures, modèles et collaborations requièrent une réflexion granulaire axée sur les archives et une appréciation du contexte afin d’assurer l’accès au patrimoine documentaire numérique de BAC.

Dans ce billet, nous proposons d’aborder trois éléments :

  • l’importance de la collaboration avec les partenaires internes et externes;
  • les défis posés par le volume et la diversité des formats;
  • les outils de traitement et les approches développés par l’équipe pour l’évaluation et lacompréhension des documents numériques.
  1. Collaborer

Un projet de premier ministre (comme on l’appelle dans le jargon de BAC) débute bien avant qu’une équipe archivistique soit formée. Une acquisition d’une telle importance fait l’objet d’une longue négociation et n’est pas possible sans l’établissement d’une relation de confiance entre l’acquéreur (BAC) et le donateur (le premier ministre). Rappelons que le mandat de BAC est d’être « le dépositaire permanent des publications des institutions fédérales, ainsi que des documents fédéraux et ministériels qui ont un intérêt historique ou archivistique ». Aussi, un ministre ou un premier ministre est tenu de transférer ses documents ministériels à BAC. Toutefois, les documents politiques et personnels qu’il crée ne sont pas soumis à la Loi de BAC. Grâce aux traditions parlementaires, la majorité des anciens premiers ministres choisissent de verser leurs archives à BAC.

D’autres partenaires font aussi partie de l’équation. Ainsi, il y a plusieurs échanges avec le client et le Bureau du conseil privé (BCP) afin d’établir l’authenticité des documents et leur intégrité technique. Ce dialogue et cette collaboration sont toujours en cours. Depuis que l’équipe archivistique a débuté son travail en octobre 2018, ces rencontres avec le BCP ont notamment porté sur la nature des systèmes d’invitation, de la correspondance et des bases de données des courriels du premier ministre. Préalablement, plusieurs discussions ont porté sur les documents à transférer, les transferts et la disposition des copies additionnelles, ainsi que le support de BAC pour le transfert des documents.

Le projet bénéficie aussi d’un accès à d’anciens membres du personnel du premier ministre. Par exemple, les questions formulées par les archivistes et adressées aux photographes officiels ont permis de mieux comprendre les pratiques, le flux de travail et les formats privilégiés dans la création et l’organisation de la collection de photographies. Ce projet n’est donc pas linéaire et il met de l’avant l’importance de collaborer avec les partenaires externes afin de mieux comprendre les documents.

À l’interne une démarche similaire est favorisée. Non seulement les archivistes du projet consultent régulièrement les archivistes de l’institution spécialisés dans le traitement des archives photographiques et audiovisuelles ou les responsables de l’assurance de la qualité des descriptions archivistiques, mais ils ont aussi un accès direct à un archiviste numérique qui a été intégré à l’équipe. Celui-ci est responsable de l’étape de la pré-ingestion des documents (que nous détaillerons plus loin), de suggérer aux archivistes des logiciels pour le traitement, de proposer des pistes pour la résolution de problèmes, de valider l’aspect technique du traitement avant l’ingestion des documents par BAC et d’agir en tant qu’agent de liaison entre les archivistes et l’équipe responsable de la préservation numérique.

C’est l’archiviste numérique qui vérifie notamment l’intégrité des documents, qu’il n’y a pas de virus ou de programmes malveillants et retire les fichiers et les systèmes temporaires. Une fois ce travail complété, il présente un rapport à l’équipe d’archivistes responsable du traitement. Ce rapport se veut une expertise technique visant à identifier les formats de fichiers non- archivistiques, archivistiques ou posant des problèmes pour leur préservation et leur migration à long terme. Alors que les archivistes prennent connaissance des différents formats, l’archiviste numérique répond à leurs questions et au besoin, consulte l’équipe des archivistes numériques.

Au sein de l’équipe du projet des archives du premier ministre, qui compte un archiviste en chef, huit archivistes et sept adjoints à l’archivistique, une approche collaborative et holistique a été mise de l’avant. Bien que les archivistes se voient confier différentes séries archivistiques contenant un ensemble de documents distincts (des archivistes se concentrent sur l’audiovisuel, la photographie, le textuel, etc.), ils travaillent en sous-groupe pour trouver des solutions à des questions communes. Ainsi, un comité s’est penché sur l’établissement des conditions d’accès. D’autres groupes testent des outils et élaborent différentes procédures (nous reviendrons sur cet aspect plus loin dans ce billet) susceptibles d’être utiles à l’ensemble de l’équipe et possiblement adoptées par le reste de l’institution.

  1. Surmonter de nouveaux défis : volume, diversité et complexité

Lors du traitement, l’équipe archivistique fait face à des défis de taille dont le volume de documents numériques et la diversité des formats avec lesquels il faut se familiariser pour mieux planifier et possiblement faire des économies d’échelle à plus long terme. Le fonds est notamment composé de plusieurs millions de documents numériques textuels, de près de 1.5 million de photographies numériques et d’approximativement 25 000 fichiers audiovisuels. La taille de ces documents numériques est aussi variable. Ainsi, un gigaoctet peut correspondre à 10 000 fichiers textuels, à 30 photographies numériques ou à un seul fichier audiovisuel.

Ces documents sont aussi créés et transmis par le donateur en différents supports et formats. Ainsi, les documents numériques textuels comprennent des fichiers en format Microsoft Word et PowerPoint, texte (.txt) ou PDF, des courriels, des chiffriers Excel, des bases de données Microsoft Access ou encore des documents en langage HTML et XML. Cette diversité peut s’avérer problématique, car les logiciels permettant de consulter et de visualiser les documents ne prennent pas en charge tous les formats et l’archiviste devra utiliser plusieurs outils à la fois.

Il arrive également que des fichiers de type charriots (sidecar files) comme des XML ou des XMP et comprenant des métadonnées supplémentaires soient associés aux documents textuels et aux photographies numériques. L’archiviste doit s’assurer que toutes les métadonnées pertinentes sont intégrées (embedded) aux documents numériques (droits d’auteurs, dates de création, résolution, types de caméra, etc.) avant de prendre la décision de disposer des fichiers charriots ou si ce n’est pas le cas, de valider avec l’institution s’il est possible de les préserver et de rendre accessible ces informations aux chercheurs.

Cette diversité de formats et la possibilité ou non de les visualiser et de les préserver, complexifient le travail de l’archiviste. Pour ce qui est des documents photographiques et audiovisuels numériques, il n’est pas rare de trouver autant de formats que de fabricants de caméras ou d’appareils d’enregistrement. Par exemple, pour un seul disque dur contenant deux téraoctets de fichiers audiovisuels (environ 15 000 fichiers), il a fallu effectuer des recherches sur plus d’une trentaine de formats de fichiers inconnus et prendre connaissance de leur contenu afin de juger leur valeur archivistique. Pour jongler avec cette multitude de formats de fichiers, il est primordial de définir clairement des critères de sélection à la fois techniques (est-il possible de préserver ces formats) et archivistiques (est-ce que ces formats et ces contenus font double- emploi?).

Ces défis nous ont amenés à revoir non seulement nos flux de travail, mais aussi à circonscrire les différents éléments qu’il faut valider et vérifier avant de se lancer dans le traitement à proprement dit.

  1. Trouver des solutions : outils d’analyse et approches développées

Après la présentation du rapport de pré-ingestion par l’archiviste numérique, nous avons réalisé en tant qu’équipe que nous n’avions pas en main toutes les informations utiles pour débuter le traitement. En effet, il nous manquait tout le volet archivistique et nous n’étions pas en mesure de répondre aux questions suivantes :

  • Comment les documents sont organisés?
  • Quel est leur contenu?
  • Est-il possible de les visualiser et à l’aide de quels outils peut-on le faire?
  • Y-a-t-il des documents qui, sans être des doublons d’un point de vue technique (qui ont une même « somme de contrôle »), font double-emploi ?
  • Y-a-t-il des métadonnées et est-il possible de les extraire afin d’élaborer nos instruments de recherche?

Pour y remédier, notre équipe d’archivistes a élaboré une liste de vérification qui comprend une vingtaine d’éléments. Cette phase d’analyse, nous permet de valider un certain nombre d’hypothèses et d’organiser plus efficacement le traitement des documents numériques.

La liste de vérification comprend les éléments suivants :

Prendre connaissance du rapport de pré-ingestion

  • Confirmer les outils (logiciels) dont l’équipe aura besoin pour visualiser les différents formats sans en altérer les métadonnées.
  • Est-ce que ces documents nécessitent une recherche plus poussée? Est-ce que les questions qu’ils soulèvent ont une portée plus large pour l’institution?

Faire l’inventaire des documents numériques

  • Identifier les liens possibles avec d’autres ensembles documentaires du fonds de BAC et de documents conservés sur d’autres serveurs.
  • Compléter la recherche sur les formats de fichiers et d’autres formats que l’institution est en mesure de préserver.
  • Vérifier les fichiers qui ont un poids de 0 KO ou très petit. Cela pourrait être le signe que le fichier est corrompu.
  • Vérifier si certains fichiers sont protégés par un mot de passe. Si c’est le cas, faire le suivi avec le créateur de ces fichiers afin d’obtenir les autorisations nécessaires pour y avoir accès.
  • Identifier les images tronquées ou corrompues visuellement à l’aide d’un logiciel qui prend en charge vos formats de photographies numériques.
  • Identifier les noms et les extensions de fichier qui seraient erronées.
  • Porter attention aux fichiers temporaires.
  • Identifier les chemins d’accès longs, car ils pourraient poser problème.
  • Hiérarchie des dossiers : observer les différents niveaux de dossiers. Si vous envisagez de revoir la classification, assurez-vous d’abord de ne pas porter atteinte à l’intégrité des documents advenant le cas que le document serait relié à un autre (un chiffrier Excel par exemple ou un XML).
  • Y-a-t-il des métadonnées? Est-ce qu’il serait pertinent d’extraire certains champs? Y-a-t-il des fichiers-chariots qui comprennent des métadonnées?
  • Au besoin, consulter les créateurs des documents afin de comprendre leur flux de travail, la présence de différents types de formats et d’être en mesure d’établir les droits d’auteurs.

Identifier les différents types de doublons ou de documents faisant double-emploi à l’aide de logiciels appropriés

  • La somme de contrôle permet d’identifier les objets numériques dont la signature est identique. Toutefois, même si un objet est similaire quant à son contenu, sa taille, son titre et même son extension, s’il a été copié quelques secondes plus tard par erreur dans un autre dossier, il y a des chances qu’il échappe à la somme de contrôle.
  • L’archiviste doit combiner plusieurs méthodes de détection de doublons afin de repérer ces cas et d’en disposer.

Établir des critères de sélection en fonction de vos observations lors de l’inventaire des documents

  • Ces critères devraient minimalement inclure les éléments suivants :
    • formats de fichiers qui ne peuvent pas être préservés par l’institution ou qui n’étaient pas destinés à être transférés par le donateur;
    • doublons et fichiers faisant double-emploi;
    • fichiers non-archivistiques (ou qui ne répondent pas à l’intention de la collection).

Déplacer et documenter les objets numériques non retenus

  • Créer différents sous-dossiers qui reflètent les différentes raisons pour lesquelles vous décidez de ne pas garder un fichier (doublons, formats, ). Ceci vous aidera par la suite à garder la trace de ce que vous avez retiré de la collection et le justifier.

Essentiellement, cette liste bonifie le flux de travail de l’archiviste en y ajoutant des éléments de vérification plus techniques et adaptés à la réalité du numérique. Dépendamment du contenu de la collection, certaines tâches sont aussi plus rapides à réaliser que d’autres. La liste n’a pas la prétention d’être complète et est appelée à évoluer, car nous apprenons constamment de nouvelles choses sur le traitement des documents numériques. Par exemple, lors du traitement de la collection des photographies numériques, nous avons découvert que certaines images de format JPEG étaient visuellement corrompues ou tronquées. La somme de contrôle n’a pas permis de détecter ce problème. Il a fallu faire appel à un logiciel adapté (Bad Peggy) pour identifier les cas problématiques et vérifier avec nos collègues de la division de la préservation numérique que ces images pourraient être éventuellement préservées / migrées. C’est donc après coup que nous avons créé cette étape dans notre liste de vérification.

Un autre élément de l’inventaire des documents numériques qui s’est avéré très important pour la planification du traitement est l’identification et la consultation préalable des métadonnées. Ainsi, dans le cas des photographies et des fichiers audiovisuels, nous avons pu voir à l’aide d’un logiciel que des informations à la fois techniques et descriptives ont été intégrées aux documents. Elles permettent de dater avec précision les documents, décrivent le contenu (qui, quoi, comment, où) et contiennent des informations sur les droits d’auteur. À l’inverse, certains documents numériques contiennent seulement des métadonnées techniques qui s’avèrent inutiles pour l’archiviste (vitesse d’obturation, luminosité, etc.). En ayant une bonne compréhension de la nature des métadonnées disponibles, l’archiviste sera plus à même de déterminer l’information qui est déjà disponible et qui peut être récupérée pour la création de l’instrument de recherche.

Pour réaliser ces différentes opérations, il est important de s’outiller adéquatement. Vous trouverez dans ce tableau récapitulatif divers logiciels que nous avons utilisés et testés lors de l’analyse et le traitement des documents numériques. Ces logiciels ont été choisis en fonction de plusieurs critères dont le plus important est qu’ils n’altèrent pas les métadonnées et l’intégrité des documents numériques.

Ces logiciels offrent davantage de fonctionnalités que celles décrites ci-dessous, mais nous nous limiterons aux fonctions les plus pertinentes.

Conclusion

La réalité du numérique amène son lot de défis pour la communauté archivistique. Ce billet offre un aperçu de certains des enjeux complexes auxquels notre projet est confronté quotidiennement. Même si le traitement des archives est bien entamé, notre travail d’analyse n’est pas terminé et il est fort probable que nous ayons de nouvelles questions sur lesquelles nous pencher.

L’une des plus importantes d’entre elles est la protection des renseignements personnels. Dans un fonds aussi volumineux et éclectique, il faut s’attendre à trouver des informations sensibles ayant le potentiel de porter préjudice à des personnes, des entreprises ou des institutions gouvernementales. Aussi, une solution qui est envisagée par notre équipe est d’automatiser avec des logiciels spécialisés l’identification des renseignements personnels et classifiés.

Finalement, on ne saurait trop insister sur l’importance de poursuivre le travail collaboratif avec nos partenaires externes et internes. C’est grâce à l’arrimage de ces expertises que BAC sera en mesure d’assurer la préservation de ces documents numériques et de rendre accessible aux Canadien.ne.s l’un des fonds les plus riches sur l’histoire politique du Canada de ce début du 21e siècle.

***

1 Le fonds comprend néanmoins 185 mètres de documents analogues, ce qui correspond à est plus de la moitié du fonds Chrétien (313,23 mètres).

2 Des travaux relativement récents en science politique ont d’ailleurs analysé les stratégies de communication déployées dans les réseaux sociaux et les sites internet par le Bureau du premier ministre afin de rejoindre les Canadiens. Voir notamment Alex Marland, Thierry Giasson and Tamara A. Small, dir., Political Communication in Canada: Meet the Press and Tweet the Rest, Vancouver, UBC Press, 2014.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s