Marimar Rufino Morales [elle]
Doctorat en littérature, option études hispaniques
Direction : Enrique Pato
Titre de la thèse : Le respeaking off-line et son application pour la transcription de corpus linguistiques
Contact : mdm.rufino.morales@umontreal.ca
Résumé de la thèse
L’observation du contact entre les langues est essentielle pour faire progresser les sciences du langage, notamment la linguistique et la didactique des langues. Cette observation repose entre autres sur les données recueillies à partir d’échantillons enregistrés avec des locutrices et locuteurs représentatifs de l’objet d’étude. Un corpus, qui peut contenir des centaines d’heures d’enregistrement, se complète de la transcription et de l’étiquetage du matériel audiovisuel.
En raison de l’écart entre la vitesse de la parole et la vitesse de frappe, transcrire une heure d’enregistrement avec un clavier peut prendre une soixantaine d'heures de travail. Lorsqu’on utilise un logiciel de reconnaissance automatique de la parole, la qualité des résultats est très variable. Le taux de reconnaissance étant lié à l’environnement acoustique, aux locutrices et locuteurs ainsi qu'au vocabulaire employé, le temps investi pour corriger les erreurs s’avère supérieur à celui de la transcription manuelle.
Je me suis demandé comment optimiser l’étape de la transcription. J’ai observé d’autres domaines confrontés aux contraintes de transcription de la langue parlée et j’ai retenu une technique employée à la télévision. Issue d’une collaboration humain-machine, le « respeaking » permet le sous-titrage des émissions en temps réel. De plus, pour répondre aux exigences en matière d’accessibilité, avec le « respeaking », on ajoute simultanément la description des sons environnants à la transcription de la langue parlée.
Mon hypothèse s'appuie sur la prémisse qu’une adaptation du « respeaking » pourrait optimiser les méthodes de transcription des corpus linguistiques et permettrait d’ajouter une partie de l’étiquetage lors de la transcription. Pour mener mon étude, j’ai utilisé le Corpus oral de la langue espagnole à Montréal.
Ma recherche vise à identifier les compétences et habiletés du profil transcripteur de corpus linguistiques au moyen de la technologie intelligente, à inclure l’étiquetage des phénomènes linguistiques à l’étape de la transcription et à catégoriser les erreurs de variation dialectale des logiciels de reconnaissance de la parole.