Recherche scientifique et théorie

Qu’est-ce que le Crowdsourcing en archivistique?

Par Audrey-Anne Côté, étudiante à l’EBSI (Université de Montréal)

L’archivistique a de nos jours besoin d’évoluer avec l’arrivée de toutes sortes de technologies et notamment l’essor du numérique. J’ai choisi le thème du crowdsourcing pour cette analyse, car ce n’est pas quelque chose que j’ai déjà abordé auparavant, donc ma curiosité a été piquée. Au moment où j’écris ces lignes, je ne suis absolument pas renseignée sur le sujet. Si je devais essayer de m’imaginer l’utilisation en archivistique de ce qui est traduit par production participative, j’aurais tendance à dire que c’est le fait de compter sur la participation de la communauté autour du réseau archivistique en question pour aider à élaborer une banque de données ou récolter des sources, par exemple. Mais trêve de spéculation et entrons dans le sujet. Ce texte sera divisé en deux temps, l’explication de ce qu’est le crowdsourcing en archivistique, et les apports que ce dernier représente, ou pourrait représenter, autrement dit quel est son intérêt.

Commençons par une définition de Kate Theimer qui a été reprise dans plusieurs des sources que j’ai lues. Le crowdsourcing est donc : « Un organisme, un site ou une collection auxquels des personnes qui ne sont pas des professionnels des archives apportent leur connaissance ou ajoutent des contenus, généralement dans un contexte numérique en ligne. Il en résulte une meilleure compréhension des documents d’archives. »[1] On se sert de la foule pour apporter une diversité à notre travail d’archiviste. Il s’agit donc d’offrir à un public, ciblé ou infini, la possibilité d’aider les archivistes dans un travail qui serait impossible à réaliser parce qu’il est trop imposant pour le milieu professionnel, il faut alors faire recours à monsieur madame tout le monde. « Il peut s’agir d’une contribution des usagers à la description des contenus (indexation collaborative, identification de photographies, etc.), voire d’une véritable co-construction patrimoniale, via un apport de contenus scientifiques ou de matériaux patrimoniaux par les usagers. »[2] Nous reviendrons sur les nuances des types de travaux possibles, mais ce qu’il faut retenir, c’est qu’il s’agit de tâches simples, dont il ne faut pas forcément des connaissances scientifiques au préalable. Et pour rendre la chose plus accessible encore, elle est souvent développée sous forme de micro-task ou micros-tâches : « En somme, le crowdsourcing consiste en d’importantes tâches complexes, qu’il s’agit de diviser en sous-tâches. Les sous-tâches ne nécessitant pas de savoirs ou de compétences particulières peuvent alors être prises en charge par des individus appartenant à la foule (crowd). » [3]

Mais pourquoi ce besoin chez les archivistes de relayer des tâches à des gens de l’externe ? Plusieurs raisons peuvent être soulignées. Premièrement, parce qu’en archivistique, on fait face à une masse de documents de plus en plus grande. On en vient même à devoir faire des choix, surtout lorsqu’il s’agit de tout numériser, il est impossible de tout faire. Ce qui fait que les archivistes auront alors peut-être tendance à se concentrer sur les tâches essentielles, la numérisation, la diffusion, la conservation, mais que lorsque possible, ils relayeront les tâches par exemple de description et d’identification des documents qui sont moins pressantes. Deuxièmement, chaque document est unique. « Cette unicité du document d’archives rend complexe sa description exhaustive, qui ne peut pas comme dans les bibliothèques s’appuyer sur des catalogues collectifs ou des échanges de données. » [4] Si l’on met ses deux arguments ensemble, on se retrouve alors avec une description qui ne peut pas se faire à l’unité, à la pièce archivistique, par manque de temps vu la masse de documents, et qui est plutôt faite par dossier ou registre, ce qui n’est alors pas adapté à la recherche, un des buts de sa diffusion au public. En effet, même si un dossier possède des éléments communs à un sujet précis, une des pièces du dossier pourrait se retrouver fort utile pour un chercheur qui s’intéresse à un autre thème, et qui pourrait passer à côté, puisque la description du dossier ne lui offre pas l’information qu’il recherche.

D’où l’importance d’une communauté disponible pour contribuer à la description à la pièce, au tagging, à l’identification, etc. « Ces techniques sont utilisées tout particulièrement pour l’identification de documents iconographiques, auxquels il est impossible d’accéder par un moteur de recherche s’ils ne disposent pas d’un minimum de données descriptives. » [5] De même, en offrant au public la possibilité de travailler avec les archives, on est plus à même de cerner les intérêts, les besoins, le niveau d’engagement de la communauté. Prenons par exemple le tagging social : « L’internaute est invité à indexer des documents à l’aide de mots-clés, qu’on appelle des « tags ». Ces mots-clés sont exprimés en langage naturel et choisis librement par l’usager. Ce procédé est très répandu pour l’indexation de photographies et peut s’effectuer via les médias sociaux de partage de contenus comme Flickr, qui propose cette fonctionnalité ». [6] On adapte alors notre contenu à une plus grande variété de public, que ce soit les scientifiques, les gens du commun, et pourquoi pas, les enfants.

Source CC BY 2.0

Spécifiquement, à quels niveaux la foule peut être utile ? « Si la puissance de calcul du cerveau humain n’est plus à prouver, l’émulation des cerveaux entre eux peut encore nous surprendre. » [7] Ceci est d’autant plus important sur des aides qui sont du ressort de l’identification. Associer des photographies avec un thème commun, déterminer quelle langue apparait sur un parchemin x et la traduire au mieux, ce sont des exemples de tâches que le crowdsourcing peut soumettre. La force du nombre est alors mise de l’avant : « En effet, ce phénomène s’explique de manière presque mathématique : en faisant la moyenne des prédictions d’un grand nombre de personnes, les erreurs commises se compensent mutuellement. »[8] De nos jours, il existe des technologies qui pourraient bien sûr nous aider à faire ces identifications, mais elles ne sont pas parfaites et parfois l’œil humain surpasse la machine. C’est la même chose au niveau de la traduction, il faut parfois pouvoir expertiser si une expression par exemple, pouvait se dire de plusieurs manières différentes : « Therefore, it is necessary to manually verify the automatically identified records for final identification. Humans are good at determining whether the difference in two records implies a misidentification, because they can tell whether two different expressions are semantically equivalent. » [9]

Dans une autre optique, faire appel à la foule peut aussi se faire à différents niveaux. On peut offrir à tout un chacun de nous aider, on peut demander une inscription à un site, par exemple, pour limiter légèrement les options et éviter les dérapages que la foule peut entrainer, ou alors on peut offrir nos contenus seulement à un groupe ciblé, souvent scientifique, ayant une connaissance globale du sujet de nos archives. [10] « Les sous-tâches qui exigent un certain niveau de connaissances peuvent être déléguées à des niches, dont les membres possèdent une expertise dans un domaine. » [11] Les généalogistes sont un exemple de ces experts, puisqu’ils dépendent largement de la publication des archives, surtout les documents de types nominatifs. Les archives touchent généralement une communauté un peu plus scientifique, puisqu’elles sont malheureusement moins utilisées par le grand public, elles ont donc tendance à rassembler des experts dans leur sujet, qui seront poussés vers le partage de connaissances. « Il leur est ainsi possible de mettre en place une véritable co-construction patrimoniale, parfois avec un haut degré d’excellence scientifique, à travers des programmes de transcription collaborative des contenus ou des travaux de recherche scientifique appuyés sur les collections. » [12] On touche alors plus qu’aux tâches de base d’archiviste et on agrandit la valeur patrimoniale de certaines archives de cette manière.

Autre que par la diffusion normale des archives et une demande d’aide, on peut aussi approcher la foule par une stimulation sous forme de jeux. En effet, les jeux sont beaucoup plus populaires pour attirer les gens, surtout un public non initié, puisqu’ils ont alors un intérêt différent, celui de la compétition. De la même manière, cela implique la microtâche, puisque l’on demande alors moins d’efforts en terme technique, mais beaucoup plus de régularité : « Since people don’t like working on mundane activities for long but can waste hours in playing rather simple games, the idea of combining these two has been found to be an effective way to motivate people. Turning useful activities into games is called gamification. »[13] On peut aussi étendre les tâches archivistiques du crowdsourcing à des activités plus communautaires, comme les demandes d’opinion par exemple : « For example, Crowdsourcing has been used by archivists to describe a public consultation exercise regarding archives policy, collaborative appraisal, and collection development work, and a volunteer scanning program. » [14]

En conclusion, le crowdsourcing est un appel à la foule, pour aider dans le travail archivistique, qui à cause de la masse de documents et de leur unicité, ne peut pas s’occuper de toutes les tâches dont elle voudrait. On parle alors d’identifier des documents, de faire du tagging, d’indexer, etc.  On peut avoir recours à un public très large, comme à une sélection provenant de l’élite intellectuelle (certains centres d’archives font même passer des tests avant de donner accès au crowdsourcing.) Nous avons vu les intérêts des archivistes, regardons de l’autre côté de la médaille : « Common motivations for volunteers include the size of the challenge, the necessity for volunteer contribution, collaboration with prestigious institutions, contribution to research, education, mental stimulation, being part of a community, personal research interests, and enhancing a resource from which they will benefit. » [15] Cet exercice était simplement descriptif, et je pense qu’il serait intéressant de se pencher plus en détail sur les différentes façons d’approcher le public pour l’attirer vers le crowdsourcing, de nos jours.

***

* Ce texte est une version révisée et augmentée d’un travail pratique réalisé dans le cadre du cours ARV1050 – Introduction à l’archivistique – donné au trimestre d’hiver 2020 par Isabelle Dion à l’EBSI, Université de Montréal.

Références

Alexandra Eveleigh. « Crowding out the archivist? Locating crowdsourcing within the broader landscape of participatory archives. » dans Crowdsourcing our cultural heritage, 2014, p. 211-229.

Ariane Néroulidis. Le crowdsourcing appliqué aux archives numériques: concepts, pratiques et enjeux. Thèse de Doctorat, Université de Lyon, 2015, 109p. [En ligne] https://core.ac.uk/download/pdf/32629482.pdf

Atsuyuki Morishima, Tomita Shiori, Takanori Kawashima, et al. «A crowdsourcing approach for finding misidentifications of bibliographic records » dans iConference 2014 Proceedings, 2014, 15p.  [En Ligne]

https://www.ideals.illinois.edu/bitstream/handle/2142/47409/061_ready.pdf?sequence=2&isAllowed=y

Donelle McKinley. Practical management strategies for crowdsourcing in libraries, archives and museums. Vol 23, 2012, 13p. [En ligne]

http://nonprofitcrowd.org/wp-content/uploads/2014/11/McKinley-2012-Crowdsourcing-management-strategies.pdf

Édouard Bouyé. « Le Web collaboratif dans les services d’archives publics: un pari sur l’intelligence et la motivation des publics. » dans Gazette des archives, 2012, vol. 227, no 3, p. 125-136. [En Ligne]

http://archives.cantal.fr/download.cgi?filename=accounts/mnesys_ad15/datas/cms/Bouye_RASAD_Gazette.pdf

Otto Chrons et Sami Sundell. «Digitalkoot: Making old archives accessible using crowdsourcing. » dans Workshops at the Twenty-Fifth AAAI Conference on Artificial Intelligence, 2011, 12p. [ En ligne]

http://archives.cantal.fr/download.cgi?filename=accounts/mnesys_ad15/datas/cms/Bouye_RASAD_Gazette.pdf

Pauline Moirez. « Archives participatives. » dans Bibliothèques 2.0 à l’heure des médias sociaux, Editions du Cercle de la librairie, pp.187-197, 2012 [En Ligne] https://archivesic.ccsd.cnrs.fr/sic_00725420/document

[1] Pauline Moirez. « Archives participatives. » dans Bibliothèques 2.0 à l’heure des médias sociaux, Editions du Cercle de la librairie, p.187

[2] Ibid.

[3] Ariane Néroulidis. Le crowdsourcing appliqué aux archives numériques: concepts, pratiques et enjeux. Thèse de Doctorat, Université de Lyon, 2015, p.21

[4] Pauline Moirez. « Archives participatives. » dans Bibliothèques 2.0 à l’heure des médias sociaux, Editions du Cercle de la librairie, p.189

[5] Ibid.

[6] Ariane Néroulidis. Le crowdsourcing appliqué aux archives numériques: concepts, pratiques et enjeux. Thèse de Doctorat, Université de Lyon, 2015, p.51

[7] Ariane Néroulidis. Le crowdsourcing appliqué aux archives numériques: concepts, pratiques et enjeux. Thèse de Doctorat, Université de Lyon, 2015, p.12

[8] Ibid.

[9] Atsuyuki Morishima, Tomita Shiori, Takanori Kawashima, et al. «A crowdsourcing approach for finding misidentifications of bibliographic records » dans iConference 2014 Proceedings, 2014, p.2

[10] Édouard Bouyé. « Le Web collaboratif dans les services d’archives publics: un pari sur l’intelligence et la motivation des publics. » dans Gazette des archives, 2012, vol. 227, no 3, p.127

[11] Ariane Néroulidis. Le crowdsourcing appliqué aux archives numériques: concepts, pratiques et enjeux. Thèse de Doctorat, Université de Lyon, 2015, p.21

[12] Pauline Moirez. « Archives participatives. » dans Bibliothèques 2.0 à l’heure des médias sociaux, Editions du Cercle de la librairie, p.194

[13] Otto Chrons et Sami Sundell. «Digitalkoot: Making old archives accessible using crowdsourcing. » dans Workshops at the Twenty-Fifth AAAI Conference on Artificial Intelligence, 2011, p.20.

[14] Alexandra Eveleigh. « Crowding out the archivist? Locating crowdsourcing within the broader landscape of participatory archives. » dans Crowdsourcing our cultural heritage, 2014, p.211

[15] Donelle McKinley. Practical management strategies for crowdsourcing in libraries, archives and museums. Vol 23, 2012, p.5

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s