NER4Archives : reconnaissance d’entités nommées pour les services d’archives

Depuis fin 2020, les Archives nationales et l’Inria, avec le soutien du ministère de la Culture, travaillent à la reconnaissance des entités nommées dans les instruments de recherche au format XML/EAD. C’est le projet NER4Archives (Named Entity Recognition For Archives) ou « reconnaissance d’entités nommées pour les services d’archives ».

Schéma technique qui montre la chaîne de traitement et le process suivi pour traiter les éléments de description de référence, utilisés pour faire des recherches dans les documents ou dans les inventaires.
Chaîne de traitement mise en place pour l’annotation et la classification des entités nommées.

Depuis fin 2020, les Archives nationales et l’équipe ALMAnaCH de l’Inria ont joint leurs forces, avec le soutien du ministère de la Culture, pour travailler à la reconnaissance des entités nommées dans les instruments de recherche au format XML/EAD

Repères
Les Entités nommées sont des éléments de description de référence, que l’on utilise notamment pour indexer et faire des recherches dans les documents ou dans les inventaires. Les entités nommées sont surtout des noms propres, comme des noms de personnes, de lieux, d’institutions, etc.

L’enjeu est important : les Archives nationales gèrent un corpus de plus de 32 000 fichiers XML/EAD, qui constituent le cœur de leur système d’information en ligne et qui décrivent les millions de documents et groupes de documents conservés par l’institution. Mais, pour diverses raisons, ces fichiers sont très peu indexés, ce qui prive les usagers des Archives nationales de points d’entrée appropriés lorsqu’ils font des recherches dans les métadonnées afin d’identifier les documents et données qui les intéressent. II n’est pas possible de procéder à une indexation manuelle de ce corpus. Le problème est globalement le même dans les autres services d’archives français. 

Les Archives nationales disposent par ailleurs de référentiels servant à l’indexation de ces métadonnées, qu’elles ont sémantisés (en savoir plus sur la Sémantisation des référentiels) et souhaitent enrichir par tous les moyens utilisables. 

Le projet NER4Archives vise donc à doter les Archives nationales, et potentiellement tout autre service intéressé :

  • de corpus d’apprentissage et de modèles d’IA efficaces pour parvenir à annoter les entités nommées mentionnées dans les fichiers EAD et à les classifier ;
  • de dispositifs permettant de réconcilier les entités nommées préalablement identifiées et classifiées, en les liant à des entités décrites dans des référentiels externes tels que Wikidata, ou à des entités décrites dans les référentiels des Archives nationales - entity linking ;
  • d’un workflow permettant d’enrichir les référentiels des Archives nationales avec les données issues du liage et, enfin, d’enrichir les fichiers XML/EAD en leur intégrant les données d’indexation résultant de l’ensemble de ce processus.


En ce qui concerne le premier objectif, des résultats très significatifs ont été obtenus en 2022. Après un temps de pause en 2023, le projet est entré dans sa deuxième phase en 2024, pour une durée d’un an. 
Les informations sur les résultats de cette deuxième phase et une présentation d’un bilan complet du projet pourront bientôt être communiqués. 

Pour aller plus loin

> Sur GitHub : page Web de l’équipe NER4Archives. Accès à plusieurs dépôts contenant les corpus d’apprentissage, les scripts du workflow de production de ces corpus et le pipeline d’entraînement des modèles.
> Les modèles produits.
> NER4Archives (named entity recognition for archives) : conception et réalisation d’un outil de détection, de classification et de résolution des entités nommées dans les instruments de recherche archivistiques encodés en XML/EAD, par Florence Clavaud, Laurent Romary, Pauline Charbonnier, Lucas Terriel, Gaetano Piraino, et al. Atelier Culture-Inria, ministère de la Culture ; Inria ; Archives nationales - mars 2022 - Pierrefitte-sur-Seine - France (hal-03625734).
> NER4Archives : reconnaître, réconcilier et identifier les entités nommées dans les instruments de recherche archivistiques au format EAD, par Florence Clavaud et Cecilia Graiff (consulter le document). 
Séminaire du 30 mai 2024 du groupe de chercheurs NER for OCR’ed historical documents in Paris, Maison de la Recherche, Paris, France. 

Contacter le Lab des Archives

Suivez-nous sur les réseaux sociaux et Abonnez-vous à notre lettre d’information