Archives au quotidien

Les données de recherche : comment évaluer pour mieux conserver?

Par Catherine Laplante, finissante à la maîtrise en sciences de l’information à l’EBSI, Université de Montréal

Introduction

La production des données de recherche a connu une forte croissance au cours des dernières années, ce qui a rendu d’autant plus nécessaire d’assurer leur saine gestion. Associé à la problématique de justifier le stockage de cette quantité exponentielle se trouve le besoin de sélectionner quelles données doivent être conservées, dans l’optique de leur potentiel de réutilisation et, par extension, du partage des connaissances.

Les interventions des archivistes en matière de gestion des données de recherche représentent actuellement plus l’exception que la règle. Leur expertise en évaluation et en préservation justifierait pourtant leur contribution auprès des chercheurs. L’objectif de ce billet est de faire une synthèse des lignes directrices en matière d’évaluation des données de recherche afin de déterminer les pratiques adéquates à mettre en place pour leur conservation. Cette démarche a été entreprise à partir d’une revue de la littérature touchant aux aspects de l’évaluation et de la conservation, selon la perspective archivistique.

Les données de recherche : quelques définitions

De prime abord, comment définir les données de recherche? La définition qui semble faire consensus est celle du CASRAI Dictionary, reprise par le réseau Portage (s. d.-b) de même que par Johnston (2017). Les données de recherche y sont définies selon quatre aspects :

  • Des sources primaires qui soutiennent des projets de recherche, des études académiques ou des travaux artistiques.
  • Elles peuvent être utilisées comme preuve pour valider des résultats.
  • Elles peuvent prendre la forme de données expérimentales, de données d’observation, de données opérationnelles, de données de tiers, de données du secteur public, de données de suivi, de données traitées ou de données réutilisées.
  • Tout autre contenu numérique et non numérique a le potentiel de devenir des données de recherche. (Portage, s. d.-b)

Da Sylva (2017) définit quant à elle les données de recherche comme :

[des] données générées à l’intérieur d’un projet de recherche, en milieu académique, gouvernemental ou industriel : par exemple, des observations sur le terrain, des réponses à des sondages ou questionnaires, des données créées par des processus de simulation par ordinateur, etc. (Da Sylva, 2017, p. 7)

Dès lors, on peut résumer que les données de recherche, générées sous une variété de formes, sont souvent définies par les nombreux exemples qui les composent. De plus, elles sont issues de sources diverses et couvrent des disciplines de toutes sortes. En plus de cette hétérogénéité marquée, les données se caractérisent souvent par leur abondance.

Pourquoi conserver les données de recherche?

Essentiellement, la conservation des données se fait en vue du partage (Childs, McLeod, Lomas et Cook, 2014). Cela s’insère dans une vision globale d’enrichissement de la recherche à plus large échelle, au bénéfice de toute la communauté scientifique. Les principales raisons de conservation invoquées par Portage abondent dans ce sens :

  • Accélère le progrès scientifique
  • Améliore l’efficacité de la recherche
  • Accroît la visibilité et les retombées de la recherche
  • Permet de respecter les politiques des organismes de financement
  • Permet d’éviter la répétition des travaux de recherche
  • Garantit l’intégrité de la recherche et la validation des résultats (Portage, s. d.-a)

Malgré la légitimité de ces motifs, les chercheurs semblent démontrer une certaine réticence à rendre disponibles leurs données de recherche (Poole, 2016). La concurrence entre les chercheurs, induite par la quête du financement et de la publication, explique en partie cette prise de position. Cela dit, le manque d’intérêt de la part des chercheurs pourrait s’expliquer par le fait qu’ils ne se sentent tout simplement pas concernés par la préservation des données qu’ils ont créées, puisqu’ils n’en ont plus besoin une fois leur projet de recherche terminé (Doorn et Tjalsma, 2007). En contrepartie, les organisations responsables de la préservation à long terme, elles, exercent rarement une influence au moment de la création des données. Cette dichotomie explique probablement les nombreuses initiatives émergentes pour accompagner les chercheurs dans la gestion de leurs données de recherche.

Combien de temps conserver?

La réflexion précédente conduit tout naturellement à s’interroger sur la durée de cette conservation à long terme. Est-ce que ce qualificatif signifie d’emblée « à perpétuité »? Selon le Digital Curation Center (2014), le terme veut plutôt dire « au-delà du projet de recherche ». L’organisme propose ainsi de réévaluer l’intérêt de conserver des collections de données de manière périodique.

Rappelons que fondamentalement en archivistique, l’évaluation consiste à fixer des périodes de temps pendant lesquelles les valeurs primaires et secondaires s’appliquent (Couture, 1996-1997). Cette composante est toutefois à peine effleurée lorsqu’il est question des données de recherche.

Dennie et Guindon (2017) ont demandé directement l’avis des principaux intéressés, à savoir les créateurs des données. Les résultats de leur enquête sur les attitudes des chercheurs en matière de gestion des données de recherche ont dévoilé leur opinion sur la question : « Combien de temps vos données devraient-elles être préservées? ». Selon les réponses, 41% des chercheurs estiment que les données devraient être conservées indéfiniment (Dennie et Guindon, 2017, p. 67-68).

Crédit : Elmira College – CC BY 2.0

Néanmoins, selon les experts des données, fixer une durée de conservation n’est pas chose aisée et cette durée variera selon les domaines de recherche (Rombouts et Tjalsma, 2010). Certaines bibliothèques de recherche proposent de manière un peu arbitraire une conservation de plus de 100 ans (Kimpton et Minton Morris, 2014). Parfois, le cas de figure s’avère simple à régler lorsque des obligations légales dictent la durée de conservation. Chose certaine, les coûts de conservation ont une incidence sur les décisions prises à ce niveau. En effet, la conservation permanente des données implique des investissements importants, tant dans le stockage que dans les mesures déployées pour assurer la lisibilité des formats dans le futur pour compenser l’évolution technologique (Cox et Verbaan, 2018). Or il est très difficile d’évaluer ces coûts à long terme. L’amenuisement des ressources financières au fil du temps conjointement à la nécessité de faire de la place aux nouveaux jeux de données viendront compromettre les promesses d’une conservation permanente (Rombouts et Tjalsma, 2010).

Compte tenu de la difficulté à établir la durée de conservation des données de recherche, le savoir-faire des archivistes en matière d’évaluation s’avérerait fort utile. Le groupe de travail Aurore sur les archives de la recherche de l’Association des archivistes français (AAF) s’est d’ailleurs penché sur la question en produisant un référentiel de gestion des archives scientifiques, dont une part est consacrée aux données (AAF, section Aurore, 2019). À l’image d’un calendrier de conservation, ce référentiel propose à titre indicatif une durée d’utilité administrative (DUA) débutant à la clôture du projet et au terme de laquelle un sort final est appliqué (conservation définitive et intégrale, tri ou destruction). Cette DUA, qui se rapporte davantage à un usage scientifique qu’à une réelle utilité administrative, a été fixée en tenant compte de différentes contraintes, notamment légales ou normatives. En ce qui concerne les données de recherche, la DUA et le sort final varient selon une typologie bien circonscrite (données brutes, travaillées, techniques, d’enregistrement, etc.). Suivant le cas, la DUA suggérée oscille donc entre 2 et 20 ans, ou est établie de façon non chiffrée (par exemple « selon les besoins de l’organisme »). Somme toute, cette ressource permet d’alimenter la réflexion au sujet de l’application d’outils archivistiques traditionnels dans un contexte numérique et, plus spécialement, à des fins de gestion des données. Surtout, il s’agit d’un exemple concret de l’expertise des archivistes pour établir des règles de conservation définies en fonction du cycle de vie des données.

Quelques enjeux de la conservation des données de recherche

Comme vu précédemment, la conservation des données est mise en place dans le but de pouvoir y accéder dans le futur. Les obstacles à cet accès ou à la conservation elle-même peuvent donc avoir des répercussions sur les critères d’évaluation. Les quatre enjeux suivants doivent notamment être considérés :

  • La qualité des données est relative aux principes d’authenticité et d’intégrité. Il s’agit effectivement d’un enjeu important pour les données puisqu’elles auront subi un traitement au cours de leur migration (Ray, 2014). Quel est le degré acceptable de changement? Pour remédier aux altérations pouvant invalider l’utilisation des données, une documentation permettant de « rétablir, au besoin, l’information correcte » s’avère essentielle (Da Sylva, 2017, p. 12).
  • La confidentialité s’insère dans la catégorie des aspects éthiques et légaux. Le partage des données est en effet compromis par l’obligation d’assurer la confidentialité des informations sensibles (Council on Library and Information Resources, 2013). Lorsqu’elle est possible, l’anonymisation des données fait partie des solutions pouvant être appliquées (Da Sylva, 2017).
  • La propriété intellectuelle se rapporte au fait que « le chercheur est en droit de se voir attribuer la paternité des données » (Da Sylva, 2017, p. 8). Certaines licences pourraient être accordées pour encadrer la réutilisation (Da Sylva, 2017). Il est à mentionner que la propriété intellectuelle diffère de la propriété physique des données (Dooley, 2015). Par exemple, les institutions qui acquièrent les données de chercheurs devront tout de même mettre en place des mesures pour que les accès respectent les droits d’auteurs.
  • Les coûts sont à considérer au moment de choisir quelles données conserver et d’établir leur durée de conservation. Par extension, les organismes subventionnaires, qui financent en quelque sorte la création des données, exercent un certain ascendant sur les décisions qui seront prises (Doorn et Tjalsma, 2007).

Synthèse des pratiques à mettre en place

La revue de littérature effectuée a permis de relever plusieurs exemples de critères d’évaluation actuellement appliqués pour juger de la valeur des données de recherche. À partir de ces exemples, nous avons pu faire une synthèse des pratiques à mettre en place.

Formuler les critères d’évaluation en fonction de la mission

La recherche effectuée a mis en évidence l’importance qu’exerce la mission dans l’établissement des critères d’évaluation. Or la variabilité de la mission des organismes au sein desquels les archivistes peuvent être amenés à gérer des données de recherche rend impossible l’établissement de critères d’évaluation universels. Par conséquent, il est essentiel que les archivistes adaptent leur pratique de manière à s’arrimer à la mission de l’organisme qu’ils servent. De surcroît, le choix de conserver ou non des données de recherche doit être cohérent avec cette mission et assurer une complémentarité avec les collections déjà archivées.

Collaborer avec le chercheur dès la création des données

La totalité de nos lectures souligne l’importance de la collaboration entre tous les individus et organismes concernés par la gestion des données de recherche. McGovern (2018) y consacre d’ailleurs l’entièreté de son article, en mettant l’accent sur la contribution des archivistes dans les bibliothèques universitaires.

En outre, établir une bonne communication avec le créateur des données est primordial pour garantir le succès de la préservation (Grant, 2017). Les chercheurs doivent en effet être impliqués dans le processus décisionnel en lien avec l’évaluation des données (Kung et Campbell, 2016).

Adapter les critères en fonction du type de données de recherche et des disciplines

Force est de constater que les pratiques à mettre en place doivent être adaptées selon le milieu, les politiques à respecter et les particularités des données. En effet, selon Beagrie (2019, p. 4) : « Not all research data is the same: it is highly varied in terms of data level; data type; and origin. In addition, not all disciplines are in the same place or have identical needs. » Ce constat est partagé par Poole (2015, p. 115) : « Appraisal and selection criteria should map to specific research communities ». Rombouts et Tjalsma (2010) soulignent eux aussi qu’il existe de trop grandes disparités entre les disciplines pour déterminer des critères de sélection spécifiques. Les auteurs suggèrent de dresser des lignes directrices générales selon trois principales raisons de conserver les données : la réutilisation, la vérification et le patrimoine (« reuse, verification and heritage ») (Rombouts et Tjalsma, 2010, p. 13).

Tenir compte des coûts de conservation à long terme

La problématique des coûts de conservation a été récurrente lors de notre analyse des critères d’évaluation. Cela peut notamment s’expliquer par la grande quantité d’acteurs impliqués dans la préservation à long terme des données de recherche : les chercheurs, les organismes subventionnaires, les institutions académiques, les organismes chargés de stocker les données dans leurs dépôts numériques… tout autant de ressources humaines demandant à être rémunérées. C’est sans compter les ressources matérielles exigeant elles aussi un financement. De plus, l’environnement numérique impose un traitement et une maintenance périodique des données, ce qui fait grimper les coûts (Whyte et Wilson, 2010). À cela s’ajoute le contexte de la recherche qui doit composer de façon générale avec des restrictions budgétaires de plus en plus importantes.

Documenter exhaustivement

La nécessité de la documentation des données de recherche touche deux dimensions liées au potentiel de réutilisation : les métadonnées et le contexte de création. Les premières sont essentielles pour un repérage efficace des données et l’encadrement de leur utilisation (Da Sylva, 2017). En ce qui concerne le contexte de création, la documentation est requise pour garantir l’authenticité des données, mais aussi pour retracer tout changement qui aurait pu les altérer et compromettre leur intégrité (Ray, 2014).

Bilan

Cette synthèse peut être résumée en trois principales lignes directrices à appliquer lors de l’évaluation des données de recherche :

  1. Adapter les critères d’évaluation en fonction de la mission de l’organisme et du type de données à conserver.
  2. Collaborer avec le chercheur dès la création des données afin d’assurer une gestion efficace des données tout au long du processus ainsi qu’une documentation complète et conforme.
  3. Élaborer les critères d’évaluation en tenant compte des contraintes de la conservation à long terme, particulièrement celles d’ordre pécuniaire.

Conclusion

Ce billet a mis en lumière la complexité de l’évaluation des données de recherche. Bien qu’il soit possible de mettre en place des mesures pour assurer la conservation des données de recherche, le succès de la démarche ne pourrait être garanti sans une collaboration étroite avec le créateur des données. La contribution des archivistes, du fait de leur expertise en matière d’évaluation, est en ce sens souhaitable.

***

* Ce texte est une version abrégée d’un travail de recherche réalisé dans le cadre du cours SCI6112 – Évaluation des archives donné au trimestre d’hiver 2019 par Yvon Lemay à l’EBSI, Université de Montréal. Le travail original est disponible dans le dépôt institutionnel de l’Université de Montréal.

Bibliographie

AAF (Association des archivistes français), section Aurore. (2019). Référentiel de gestion des archives de la recherche. Repéré à https://www.archivistes.org/IMG/pdf/referentiel_recherche_intro_septembre2012_corrige_.pdf

Beagrie, N. (2019). What to Keep: A Jisc research data study. Repéré à http://repository.jisc.ac.uk/id/eprint/7262

Childs, S., McLeod J., Lomas E. et Cook G. (2014). Opening research data: Issues and opportunities. Records Management Journal, 24(2), 142-162. https://doi.org/10.1108/RMJ-01-2014-0005

Council on Library and Information Resources. (2013). Research data management: principles, practices, and prospects. Repéré à https://apo.org.au/node/39799

Couture, C. (1996-1997). L’évaluation des archives : état de la question. Archives, 28(1), 3-21. Repéré à http://www.archivistes.qc.ca/revuearchives/vol28_1/28-1-couture.pdf

Cox, A. et Verbaan, E. (2018). Exploring research data management. London, United Kingdom: Facet Publishing.

Da Sylva, L. (2017). Les données et leurs impacts théoriques et pratiques sur les professionnels de l’information. Documentation et bibliothèques, 63(4), 5–34. https://doi.org/10.7202/1042308ar

Dennie, D. et Guindon, A. (2017). Résultats d’une enquête sur les pratiques et attitudes des chercheurs de l’Université Concordia en matière de gestion des données de recherche. Documentation et bibliothèques, 63(4), 59–72. https://doi.org/10.7202/1042311ar

DCC. (2014). Five steps to decide what data to keep: DCC Checklist for Appraising Research Data. Repéré à http://www.dcc.ac.uk/sites/default/files/documents/publications/Five%20Steps%20to%20decide%20what%20data%20to%20keep.pdf

Dooley, J. (2015). The Archival Advantage: Integrating Archival Expertise into Management of Born-digital Library Materials. Repéré à http://www.oclc.org/content/dam/research/publications/2015/oclcresearch-archivaladvantage-2015.pdf

Doorn, P. et Tjalsma H. (2007). Introduction: Archiving research data. Archival Science, 7(1), 1-20. doi: 10.1007/s10502-007-9054-6

Grant, R. (2017). Recordkeeping and research data management: A review of perspectives. Records Management Journal, 27(2), 159-174. https://doi.org/10.1108/RMJ-10-2016-0036

ICPSR (Inter-university Consortium for Political and Social Research). (s. d.-a). Details on Appraisal Critera. Repéré à https://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/details.html

ICPSR. (s. d.-b). Selection and Appraisal. Repéré à https://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/selection.html#criteria

Johnston, L. R. (2017). Curating research data (vol. 1 et 2). Chicago, IL: Association of College and Research Libraries.

Kimpton, M. et Minton Morris, C. (2014). Managing and Archiving Research Data: Local Repository and Cloud-Based Practices. Dans J. M. Ray (dir.), Research data management: practical strategies for information professionals (p. 223-238). West Lafayette, IN: Purdue University Press.

Kung, J. Y. C. et Campbell, S. (2016). What Not to Keep: Not All Data Have Future Research Value. Journal of the Canadian Health Libraries Association (JCHLA), 37(2), 53–57. https://doi.org/10.5596/c16-013

McGovern, N. Y. (2018). Radical Collaboration: An Archival View. Research Library Issues, (296), 53–61. https://doi.org/10.29242/rli.296.8

Poole, A. H. (2015). How has your science data grown? Digital curation and the human factor: a critical literature review. Archival Science, 15(2), 101-139. https://doi.org/10.1007/s10502-014-9236-y

Poole, A. H. (2016). The conceptual landscape of digital curation. Journal of Documentation, 72(5), 961-986. https://doi.org/10.1108/JD-10-2015-0123

Portage. (s. d.-a). Foire aux questions. Repéré à https://portagenetwork.ca/fr/comment-gerer-vos-donnees/foire-aux-questions/

Portage. (s. d.-b). Gestion des données de recherche : informations de base. Repéré à https://portagenetwork.ca/wp-content/uploads/2017/06/Portage-Info-de-base-GDR.pdf

Ray, J. M. (dir.). (2014). Research data management: practical strategies for information professionals. West Lafayette, IN: Purdue University Press.

Rombouts, J. et Tjalsma, H. (2010). Selection of Research Data. Guidelines for appraising and selecting research data. A report by DANS and 3TU.Datacentrum. Repéré à http://resolver.tudelft.nl/uuid:dbab8a19-542a-4c4d-96b4-df8cc39333db

Whyte, A. et Wilson, A. (2010). How to Appraise & Select Research Data for Curation. Repéré à http://www.dcc.ac.uk/sites/default/files/documents/How%20to%20Appraise%20and%20Select%20Research%20Data.pdf

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s