LectAuRep, la lecture automatique de répertoires de notaires
LectAuRep utilise l’intelligence artificielle pour expérimenter un service de recherche au sein d’images numériques de répertoires de notaires parisiens. Sa particularité ? Porter sur un corpus de documents numériques hétérogènes, des écritures très diverses et un langage assez technique, très abrégé au XIXe et au début du XXe siècle.
Mené de 2018 à 2021 grâce à l’interface web eScriptorium du logiciel libre Kraken, le projet LectAuRep a exploré un échantillonnage du corpus cible, évalué à plus de 1 million d’images et à des milliers d’écritures différentes.
Les données de « vérité terrain » ont été librement mises à disposition de la communauté scientifique sur la plateforme HTR-United.
Le projet a exploité :
- la reconnaissance d’écriture manuscrite ou HTR (handwritten text recognition) ;
- des outils de reconstitution de la mise en page originelle des documents ;
- des algorithmes de traitement automatique des langues (pré-correction du texte brut issu de la transcription automatique) ;
- des fonctionnalités de recherche avancée au sein du texte.
Ce projet est une initiative des Archives nationales portée par la convention Culture-Inria, en partenariat avec :
- le ministère de la Culture ;
- l’Inria (Institut national de recherche en sciences et technologies du numérique) à travers son équipe ALMAnaCH – Modélisation et analyse linguistique automatique et humanités computationnelles ;
- l’université Paris Sciences & Lettres (PSL) via son programme en humanités numériques eScripta – Sciences et pratiques de l’écrit.
Contact

En savoir plus
Vidéo sur la lecture automatique de répertoires (3'22'').
Carnet de recherches
Présentation de la journée d’étude des Archives nationales, 29 novembre 2022 : « LectAuRep : un projet de recherche et développement pour la transcription automatique de répertoires de notaires » (support et captation vidéo).