Simara : convertir en données les inventaires manuscrits avec l’aide de l’IA

La plateforme Simara s’appuie sur l’intelligence artificielle pour convertir en données des inventaires manuscrits anciens. Explications.

Inventaires sur fiches du XVIIIe au XXe siècle.

800000

fiches dans les inventaires des archives de l’Ancien Régime.

100000

pages d’inventaires des archives de l’Ancien Régime.

Simara signifie Saisie d’inventaires manuscrits assistée par reconnaissance automatique. Cette plateforme permet de convertir en données les inventaires manuscrits. 

Allant du XVIIIe au milieu du XXe siècle, ces fichiers et registres sont peu accessibles aux lecteurs, alors qu’ils représentent une masse importante de documents : 800 000 fiches et 100 000 pages dans le cas des inventaires des archives de l’Ancien Régime… 

Le projet, qui a bénéficié du financement du plan France Relance, a été développé par la société Teklia dans le cadre d’un marché public innovant. Il tire parti de l’intelligence artificielle afin de gagner du temps sur deux étapes importantes : 

  • la transcription des informations manuscrites grâce à l’HTR (reconnaissance des écritures manuscrites) ;
  • leur structuration selon les standards informatiques archivistiques (XML EAD), grâce à une identification automatique des contenus (NER ou reconnaissance d’entités nommées). 

Simara réalise simultanément ces deux étapes, ce qui permet aux archivistes de se concentrer sur la relecture des informations, ensuite publiées dans la salle de lecture virtuelle des Archives nationales. 

Photo de la segmentation des zones correspondant à des unités documentaires dans les inventaires de type registre.
Segmentation des zones correspondant à des unités documentaires dans les inventaires de type registre.
Visuel d'une Ttranscription effectuée par l’intelligence artificielle d’une fiche, à corriger et valider.
Transcription effectuée par l’intelligence artificielle d’une fiche, à corriger et valider.
Visuel d'une transcription validée et indexée d’une fiche.
Transcription validée et indexée d’une fiche.
Visualisation dans Simara d’une transcription et de son encodage XML après validation.
Visualisation dans Simara d’une transcription et de son encodage XML après validation.
Photo de la segmentation des zones correspondant à des unités documentaires dans les inventaires de type registre. Visuel d'une Ttranscription effectuée par l’intelligence artificielle d’une fiche, à corriger et valider. Visuel d'une transcription validée et indexée d’une fiche. Visualisation dans Simara d’une transcription et de son encodage XML après validation.

Suivez-nous sur les réseaux sociaux et Abonnez-vous à notre lettre d’information