Passer au contenu

/ Département de littératures et de langues du monde

Je donne

Rechercher

Alix Chagué [elle]

Alix Chagué

Doctorat en littérature, option humanités numériques

Codirection : Michael Eberle SinatraEmmanuel Château-Dutier (Département d'histoire de l'art et d'études cinématographiques) et Laurent Romary (Inria)

Titre de la thèse : Corpora, methods and resources for the automatic transcription of handwritten, French patrimonial contemporary documents

Contact : alix.chague@umontreal.ca

 

CV

Site web

Thesis Abstract

This research aims at exploring the specificities of the humanities as a field of application for the automatic recognition of handwritten texts (HTR), in particular with regard to French patrimonial documents produced during the contemporary period (19th-20th centuries). As a primary objective, this thesis intends to explore the limitations and obligations brought about by the construction of sets of ground truth for the creation of transcription models. It will consider other models such as those in charge of tasks like segmentation and logical structure analysis. Furthermore, the scrutiny of the formal characteristics of the 19th and 20th centuries handwriting variations should lead to establishing the premises for a standardization of practices concerning transcribing and describing of datasets.

Résumé de la thèse

Cette thèse porte sur les spécificités méthodologiques des sciences humaines en tant que domaine d'application de la reconnaissance automatique des écritures manuscrites, en particulier s'agissant des écrits patrimoniaux français de la période contemporaine (XIXe-XXe siècles). Elle vise tout d'abord à explorer les contraintes particulières posées lors de la construction de la vérité de terrain permettant la production de modèles de transcription (et de ses tâches associées, comme la segmentation et l'analyse de la structure logique). Il s'agit également d'envisager les spécificités formelles des écritures manuscrites des XIXe et XXe siècles afin notamment de poser les prémices d'une standardisation des pratiques de transcription et de description des données d'entraînement.