Simara : convertir en données les inventaires manuscrits avec l’aide de l’IA
La plateforme Simara s’appuie sur l’intelligence artificielle pour convertir en données des inventaires manuscrits anciens. Explications.

800000
fiches dans les inventaires des archives de l’Ancien Régime.
100000
pages d’inventaires des archives de l’Ancien Régime.
Simara signifie Saisie d’inventaires manuscrits assistée par reconnaissance automatique. Cette plateforme permet de convertir en données les inventaires manuscrits.
Allant du XVIIIe au milieu du XXe siècle, ces fichiers et registres sont peu accessibles aux lecteurs, alors qu’ils représentent une masse importante de documents : 800 000 fiches et 100 000 pages dans le cas des inventaires des archives de l’Ancien Régime…
Le projet, qui a bénéficié du financement du plan France Relance, a été développé par la société Teklia dans le cadre d’un marché public innovant. Il tire parti de l’intelligence artificielle afin de gagner du temps sur deux étapes importantes :
- la transcription des informations manuscrites grâce à l’HTR (reconnaissance des écritures manuscrites) ;
- leur structuration selon les standards informatiques archivistiques (XML EAD), grâce à une identification automatique des contenus (NER ou reconnaissance d’entités nommées).
Simara réalise simultanément ces deux étapes, ce qui permet aux archivistes de se concentrer sur la relecture des informations, ensuite publiées dans la salle de lecture virtuelle des Archives nationales.