Fonction : conservation

Dématique et SAE (26) : La Fonction conservation sécurisée des données (6) – Processus de conversion de formats de fichiers

Par Antony Belin

Les prérequis sont les suivants :

  • définir les fichiers à convertir
  • définir le format de conversion
  • conservation du format initial

Principe

La pérennité des données du contenu d’information passe par une stabilité des formats de lecture utilisés, des formats propriétaires (Word, Excel, AutoCAD…), aux versions changeantes, ne pouvant garantir l’intégrité de l’information dix ou vingt ans après la création de la donnée.

Des formats ouverts sont ainsi à préconiser pour une conservation durable des données privilégiant des formats tels que XML ou PDF (et plus particulièrement PDF/A, devenu norme ISO), conservant toute l’intégrité des contenus d’informations et, dans une large mesure, les informations de représentation, mais transportant aussi les informations de pérennisation.

Ainsi, même dans un format différent, le contenu d’information initial n’est en aucun cas altéré et le processus conserve, via des métadonnées, l’ensemble des règles de conversion appliquées.

Format des fichiers à utiliser

Plusieurs points fondamentaux sont étudiés pour la mise-en-production de flux versants, particulièrement pour le choix de formats d’archivage.

À l’entrée du système d’archivage électronique (SAE), identifier et contrôler (conformité aux spécifications d’un format donné) le format des données, en conservant le résultat des contrôles et en l’exploitant, si nécessaire, au titre des métadonnées techniques de la donnée.

La nature de l’information à archiver (le contenu) est le premier point à analyser. Il peut s’agir de texte, de graphiques statiques (illustrations, dessins industriels…) ou animés en deux dimensions (2D) ou en trois dimensions (3D), d’images (photos à tons continus…), de son (musique, discours, messages vocaux…), de vidéos (analogiques ou numériques) et de contenus mixtes. Pour chaque type d’information, un ou plusieurs formats numériques sont utilisables pour l’archivage.

Ces données peuvent provenir de différentes sources déterminant le format des données disponibles pour l’archivage.

Actuellement, les outils bureautiques sont une source majeure de données susceptibles d’être archivées, la multiplicité des logiciels et des conditions d’utilisation créant une situation complexe.

L’archivage numérique des données disponibles uniquement sur support physique (papier, film…) implique la numérisation des documents avec un numériseur adapté aux caractéristiques physiques du support disponible, des traitements complémentaires des images obtenues pouvant être nécessaires pour en réduire le volume (compression) et pour en extraire le contenu textuel (reconnaissance optique de caractères [ROC] et lecture automatique de documents [LAD]).

Certains outils spécialisés produisent des données appelant des solutions spécifiques et des formats d’archivage adaptés : messagerie électronique, logiciels de conception assistée par ordinateur (CAO) et de dessin assisté par ordinateur (DAO), appareils de photographie numérique et de prise-de-sons, caméras vidéo…

Enfin l’archivage des bases-de-données (BDD) pose un problème majeur. Il ne faut pas confondre l’image d’une base-de-données (copie de sauvegarde) avec son archivage. Pour archiver une base-de-données (BDD), il est nécessaire de figer son état, d’extraire son contenu d’une manière intelligible dans des fichiers (extraction à plat, au format CSV…), ainsi que les métadonnées associées et que la description complète (dictionnaire des données, modèle conceptuel de données [MCD], dessins des fichiers…), permettant de comprendre le fonctionnement de la base.

Par ailleurs, dans certains cas, il faut choisir entre conserver le contenu (flux de données représentant toute l’information utile) ou que la donnée présentant l’information sous une forme plus habituelle (mise-en-page, logo…). Par exemple, faut-il archiver le flux de données permettant d’imprimer un ensemble de factures ou les factures elles-mêmes, avec toutes les données redondantes (mentions légales, fonds de page…), le volume archivé pouvant varier d’un facteur dix, selon l’option choisie ?

La portée des services à rendre en matière d’accessibilité est également un point structurant. S’agit-il simplement de permettre la lecture des documents à l’écran ou en sortie d’imprimante ou faut-il répondre à d’autres besoins (recherche sur le contenu textuel…) ? Dans le premier cas, une simple numérisation en mode image est satisfaisante ; dans le second cas, il faut faire un traitement de reconnaissance optique de caractères (ROC), applicable aux documents imprimés et, avec plus de difficultés, aux documents manuscrits. Des progrès sont prévisibles dans ces techniques.

La gestion des métadonnées dans le processus d’archivage est une question clé. Certains formats permettent l’intégration des métadonnées directement dans le fichier des données (codage en XML ou grand nombre de formats image…). Si cette intégration n’est pas possible, l’accès aux données passe par la consultation d’une base-de-données (BDD) externe.

Le tableau infra résume les combinaisons possibles.

Devant la diversité des situations possibles, il est recommandé de s’appuyer sur le Référentiel général d’interopérabilité (RGI) v2.0, approuvé par l’Arrêté du 20 avril 2016 portant approbation du Référentiel général d’interopérabilité (RGI) et publié par la Direction interministérielle du numérique et du système d’information et de communication de l’État (DINSIC).

Procédure

La conversion de format des données se fait via le système d’archivage électronique (SAE), à l’initiative de l’Autorité d’archivage (AA), en accord avec l’Autorité productrice, ou à l’initiative de cette dernière. Par ailleurs, l’Autorité de tiers-archivage (ATA) peut exercer son devoir de veille et de conseil, sans pour autant procéder arbitrairement à toute modification sans consentement formalisé de l’Autorité productrice et/ou des Archives de l’Autorité juridique adhérente, si elles existent. L’ensemble de la procédure est appliquée par les opérateurs d’archivage ou de tiers-archivage (OA/OTA).

***

À propos de l’auteur : Titulaire d’un Bilan d’aptitude délivré par les Grandes écoles (BADGE) en Gestion de la dématérialisation et de l’archivage électronique (Mines ParisTech) et d’un Master en Archives (université de Haute-Alsace à Mulhouse), Antony Belin, est actuellement archiviste expert en dématique / Autorité et opérateur de tiers-archivage (ATA/OTA) chez Advanced Prologue Innovation (API). Il est aussi reconnu membre professionnel certifié par l’Association des archivistes du Québec (AAQ), dont il est membre depuis 2014.

Pour découvrir ou revisiter la série complète qui précède ce texte:
https://archivistesqc.wordpress.com/page/3/?s=D%C3%A9matique+et+SAE+&submit=Recherche

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s