Sémantisation des référentiels

Dans le Système d’information archivistique (SIA) des Archives nationales, les référentiels documentaires décrivent, aujourd’hui, environ 18 500 agents, 58 000 lieux et 3 250 concepts. Ce projet vise à sémantiser les référentiels, à enrichir la version sémantisée et à la doter d’une interface de consultation.

Capture écran d'une page de texte et de liens sur le référentiel des Archives nationales
Dépôt public des référentiels sémantisés sur GitHub.

Constituer, enrichir et sémantiser les référentiels

Dans le Système d’information archivistique (SIA) des Archives nationales, les référentiels documentaires consistent aujourd’hui en :

  • plus de 16 000 notices d’autorité encodées en XML conformément au schéma XML/EAC-CPF, décrivant les personnes physiques, familles et collectivités qui ont créé, accumulé ou maintenu les archives conservées aux Archives nationales (ensemble connu sous le nom de référentiel des producteurs) ;
  • une vingtaine de listes d’autorité, vocabulaires ou notices courtes (sur d’autres personnes et collectivités et sur des lieux) servant à indexer les descriptions des documents d’archives ; ces données sont encodées en XML conformément à une DTD spécifique très simple, à raison d’un fichier XML par liste ou vocabulaire.

Des efforts collectifs conséquents ont été engagés depuis de nombreuses années pour constituer ces référentiels. Ils se poursuivent encore aujourd’hui pour les développer et les enrichir. Le département de l’Administration des données pilote l’ajout de nouvelles notices dans ces référentiels, en particulier le référentiel des producteurs. Le Lab des Archives nationales pilote, quant à lui, de nombreux travaux visant à enrichir les référentiels grâce à leur alignement avec d’autres jeux de données, à leur sémantisation et à la publication de cette version sémantisée.

En 2022, les référentiels sémantisés, conformes à l’ontologie Records in Contexts Ontology (RiC-O) dans sa version 0.2, et à SKOS, un modèle RDF pour la structuration et la publication dans le web de données de vocabulaires contrôlés, ont été publiés sur GitHub (les consulter). 

Ces données sont accompagnées d’une liste au format Excel, qui donne des précisions sur le contenu de chacun des référentiels. En ce qui concerne les notices d’autorité constituant le référentiel des producteurs, le dépôt GitHub contient aussi la version source de ces notices, au format XML/EAC-CPF. 
Les autres référentiels (vocabulaires d’indexation, autres notices courtes de personnes et de collectivités, notices sur des lieux) y sont aussi disponibles au format CSV.

La version RDF des référentiels est produite, soit automatiquement (par exemple en utilisant RiC-O Converter pour le référentiel des producteurs), soit, dans certains cas, à l’aide d’un workflow incluant des contrôles ou opérations manuels, à partir des fichiers sources du SIA. 
La version CSV des référentiels est produite automatiquement à partir de la version RDF.
La version « brute » des référentiels des Archives nationales est, par ailleurs, disponible sous forme de données librement réutilisables (open data) sur data.culture.gouv.fr.

Plusieurs objectifs pour les travaux menés par le Lab des Archives 

  • Enrichir les données actuellement stockées dans la version XML des référentiels du SIA des Archives nationales, en ajoutant des éléments d’information pour chacune des entités déjà décrites dans ces référentiels. Ces éléments d’information sont en général pris dans d’autres référentiels, tels que les jeux de données de l’Insee ou de l’IGN. Il est important de noter que les entités décrites dans la version sémantisée des référentiels sont dotées d’identifiants (URI) formés à partir des identifiants des notices d’autorité ou des entrées correspondantes dans les référentiels source.
  • Restructurer ces données, en gagnant en granularité pour les référentiels d’indexation ou les notices de lieux, et en mettant les structures de données en conformité avec des modèles internationaux (RiC-O et SKOS actuellement).
  • Créer des relations entre les entités de ces référentiels (par exemple entre concepts génériques et concepts spécifiques dans un vocabulaire d’indexation, ou entre deux concepts décrits dans deux vocabulaires distincts, ou encore entre des quartiers limitrophes de Paris).
  • Constituer ainsi des graphes de connaissances intéressants, soit pour eux-mêmes (comme peut l’être la description des services centraux de l’État du Moyen Âge à nos jours, liés entre eux ou avec des personnes physiques par de nombreuses relations), soit lorsqu’ils sont liés avec des descriptions sémantisées de documents d’archives, constituant ainsi à la fois des points d’accès et des entités de contexte pour ces descriptions.
  • Préparer ainsi l’avenir du SIA. En raison de la quantité de données ajoutées et des formats utilisés dans ce travail, les référentiels sémantisés ne peuvent actuellement pas être réimportés dans le SIA. Lorsque le SIA aura évolué dans ses infrastructures techniques, ses modèles de données et ses fonctionnalités, il devrait être possible d’y importer ces données plus riches, plus finement structurées et normalisées.
  • Développer les possibilités de réutilisation des référentiels, par toute personne ou organisme intéressé. Les Archives nationales utilisent déjà ces référentiels sémantisés dans le cadre du projet de démonstrateur Sparnatural
  • Plusieurs autres réutilisations en ont déjà été faites ou en seront faites dans le cadre de projets dont les Archives nationales sont partenaires, comme Alegoria, NER4Archives ou Oresm.

En 2024 et 2025, les travaux du Lab se poursuivent : 

  • par la production et la publication d’une nouvelle version des référentiels sémantisés, en prenant en compte les ajouts et modifications faits récemment dans les fichiers source du SIA, et en mettant les fichiers RDF produits en conformité avec la version 1.0 de l’ontologie RiC-O publiée en décembre 2023.
  • par un enrichissement significatif du référentiel des formes, types et états des documents ou groupes de documents, par l’intégration dans le référentiel existant de nombreuses nouvelles entrées ou informations, sur la base de travaux réalisés par le DMAAR dans le cadre du projet Oresm.
  • par des travaux conséquents d’enrichissement du référentiel dit des « lieux de Paris », en particulier des descriptions des 13 189 voies parisiennes et 145 quartiers.
  • par une réflexion sur la mise en place d’une interface de consultation des référentiels sémantisés et un début de réalisation de cette interface.

Contacter le Lab des Archives

le-lab.archives-nationales@culture.gouv.fr

Pour aller plus loin

> Ontologie Records in Contexts Ontology (RiC-O) .
Voir aussi « Décrire les archives ».
> Présentation faite par Mathieu Zrhal et Alexandre Bartz (ingénieurs au Lab), le 15 novembre 2023, lors de la journée d’étude internationale sur les premières implémentations de RiC : support de présentation et enregistrement vidéo.

Suivez-nous sur les réseaux sociaux et Abonnez-vous à notre lettre d’information