LectAuRep, la lecture automatique de répertoires de notaires

LectAuRep utilise l’intelligence artificielle pour expérimenter un service de recherche au sein d’images numériques de répertoires de notaires parisiens. Sa particularité ? Porter sur un corpus de documents numériques hétérogènes, des écritures très diverses et un langage assez technique, très abrégé au XIXe et au début du XXe siècle.

Mené de 2018 à 2021 grâce à l’interface web eScriptorium du logiciel libre Kraken, le projet LectAuRep a exploré un échantillonnage du corpus cible, évalué à plus de 1 million d’images et à des milliers d’écritures différentes.

Les données de « vérité terrain » ont été librement mises à disposition de la communauté scientifique sur la plateforme HTR-United.

Le projet a exploité : 

  • la reconnaissance d’écriture manuscrite ou HTR (handwritten text recognition) ;
  • des outils de reconstitution de la mise en page originelle des documents ;
  • des algorithmes de traitement automatique des langues (pré-correction du texte brut issu de la transcription automatique) ; 
  • des fonctionnalités de recherche avancée au sein du texte.

Ce projet est une initiative des Archives nationales portée par la convention Culture-Inria, en partenariat avec :

  • le ministère de la Culture ;
  • l’Inria (Institut national de recherche en sciences et technologies du numérique) à travers son équipe ALMAnaCH –  Modélisation et analyse linguistique automatique et humanités computationnelles ;
  • l’université Paris Sciences & Lettres (PSL) via son programme en humanités numériques eScripta – Sciences et pratiques de l’écrit.
© Archives nationales de France

En savoir plus

Vidéo sur la lecture automatique de répertoires (3'22'').

Carnet de recherches 

Présentation de la journée d’étude des Archives nationales, 29 novembre 2022 : « LectAuRep : un projet de recherche et développement pour la transcription automatique de répertoires de notaires » (support et captation vidéo).

Suivez-nous sur les réseaux sociaux et Abonnez-vous à notre lettre d’information