Passer au contenu

/ Département de littératures et de langues du monde

Je donne

Rechercher

Soufiane Awad [il/lui]

Doctorat en littérature, option humanités numériques

Codirection : Michael Eberle Sinatra et Joyce Boro

Titre de la thèse : How Data Science, Machine Learning, and Stylometry help Unveil Censorship in the Shakespeare Canon

Contact : soufiane.awad@umontreal.ca

Thesis Abstract

By bridging the gap between literature and artificial intelligence, my aim is to code a program that can detect instances of high-variance within the Shakespeare canon. These instances will then be contextualized and analyzed.   

The technical dimensions of my thesis include:  

a) Constructing an artificial neural network, where input data will be transformed from a text-based representation (e.g., Shakespeare’s The Tempest) to an integer representation (numbers and symbols corresponding to letters and punctuation). 

b) using unsupervised learning, I will train the AI by providing it with i) works by Shakespeare, and ii) works not by Shakespeare. Once the model has learned to distinguish Shakespearean works, I will apply various clustering methods to mine subsequent data, grouping unlabeled data based on similarities and differences. The model, at this point, will then be able to differentiate between Shakespeare's writings and all others. 

c) Finally, through a combined analysis of vocabulary and versification, alongside various machine learning techniques, the AI model will detect and flag instances of high variance within the Shakespeare canon itself. This process aims to identify moments where Shakespeare did not write in his typical style, potentially highlighting instances of censorship. The core of my research, indeed, will focus on analyzing these divergences. 

Résumé de la thèse

Afin de détecter des potentielles instances de censure, mon objectif est de créer un programme capable de détecter les instances de haute-variance stylistique dans le corpus shakespearien.  

Les dimensions techniques de ma thèse comprennent : 

a) La construction d'un réseau de neurones artificiels, où les données d'entrée (le corpus) seront transformées d'une représentation textuelle à une représentation vectorielle. 

b) En utilisant l'apprentissage non supervisé, j'entraînerai le modèle d'IA en lui fournissant i) des œuvres de Shakespeare et ii) des œuvres non shakespeariennes. Une fois le modèle entraîné à distinguer ce qu’est une œuvre shakespearienne, j’appliquerai diverses méthodes de clustering pour analyser les données ultérieures, regroupant les données non étiquetées en fonction de leurs similitudes et différences. Le modèle pourra alors différencier les écrits de Shakespeare de ceux des autres auteurs.  

c) Enfin, l’analyse combinée du vocabulaire et de la versification, ainsi que diverses techniques d'apprentissage automatique permettront au modèle de détecter et de signaler les instances de haute variance au sein de notre corpus. Ce processus vise à identifier les moments où Shakespeare n'a pas écrit dans son style habituel, mettant potentiellement en évidence des instances de censure. La plus grande partie de ma recherche sera d'analyser ces divergences.