Alix Chagué [elle]
Doctorat en littérature, option humanités numériques
Codirection : Michael Eberle Sinatra, Emmanuel Château-Dutier (Département d'histoire de l'art et d'études cinématographiques) et Laurent Romary (Inria)
Titre de la thèse : Corpora, methods and resources for the automatic transcription of handwritten, French patrimonial contemporary documents
Contact :
Thesis Abstract
This research aims at exploring the specificities of the humanities as a field of application for the automatic recognition of handwritten texts (HTR), in particular with regard to French patrimonial documents produced during the contemporary period (19th-20th centuries). As a primary objective, this thesis intends to explore the limitations and obligations brought about by the construction of sets of ground truth for the creation of transcription models. It will consider other models such as those in charge of tasks like segmentation and logical structure analysis. Furthermore, the scrutiny of the formal characteristics of the 19th and 20th centuries handwriting variations should lead to establishing the premises for a standardization of practices concerning transcribing and describing of datasets.
Résumé de la thèse
Cette thèse porte sur les spécificités méthodologiques des sciences humaines en tant que domaine d'application de la reconnaissance automatique des écritures manuscrites, en particulier s'agissant des écrits patrimoniaux français de la période contemporaine (XIXe-XXe siècles). Elle vise tout d'abord à explorer les contraintes particulières posées lors de la construction de la vérité de terrain permettant la production de modèles de transcription (et de ses tâches associées, comme la segmentation et l'analyse de la structure logique). Il s'agit également d'envisager les spécificités formelles des écritures manuscrites des XIXe et XXe siècles afin notamment de poser les prémices d'une standardisation des pratiques de transcription et de description des données d'entraînement.