Thèse de doctorat en Informatique
-
Résumé
Ce travail de thèse a pour objectif de répondre à une demande initiée par la société Ixiade dans l’optique d’automatiser une partie de ses méthodes d’analyse de contenu via les techniques du TALN. Dans cette thèse, nous nous intéressons à des données issues de transcriptions d’entretiens et des données en ligne qui ont été collectées dans le cadre d’études d’acceptabilité des innovations.L’originalité de cette thèse est d’utiliser des méthodes d’amplification des données et des modèles de type Transformer sur de la classification de données de l’oral transcrit et des données issues d’une plateforme communautaire pour la langue française. Les contributions sont les suivantes : (1) Mise en œuvre d’une méthodologie de construction de données d’apprentissage et de test dans un contexte où les données sont indisponibles ; (2) Proposition d’une méthode d’extraction et de filtrage des contenus en fonction des classes à classifier reposant sur des patrons morphosyntaxiques ; (3) Implémentation de différentes techniques d’amplification des données textuelles pour l’oral transcrit et du contenu en ligne ; (4) Comparaison des performances de différents modèles de langue contextualisés pour la langue française sur notre tâche de classification ; (5) Examen de l’apport de l’amplification des données dans un contexte peu doté.Dans un premier temps, nous avons construit trois corpus d’apprentissage de nature différente. Le premier a été construit en utilisant des archives d’anciennes études réalisées, le deuxième a été construit à partir d’un autre corpus et le dernier provenait de projets d’études réalisés sur une plateforme. Pour cela, nous avons mis en place une procédure spécifique au contexte de travail chez Ixiade pour l’annotation des données dans le but de construire des corpus d’apprentissage et d’évaluation.Dans un deuxième temps, nous avons sélectionné un corpus parmi nos corpus collectés pour implémenter une méthode d’extraction et de validation des phrases extraites. La méthode d’extraction a permis de produire des résultats satisfaisants, mais non suffisants pour être utilisés dans l’objectif d’agrandir nos corpus initiaux d’apprentissage. En outre, afin de limiter le taux d’erreurs produit par cette méthode, nous avons également utilisé une méthode de filtrage sur les extractions faites par la première méthode. Les évaluations et les résultats des méthodes defiltrage n’ont pas permis d’augmenter significativement la précision dans l’extractiondes phrases en fonction de nos classes.Dans un troisième temps, nous nous sommes focalisés sur l’amplification de données et son apport pour la tâche de classification qui nous incombait. Pour cela, nous avons comparé les résultats produits par ces méthodes combinées à des architectures de type Transformer. Ces expérimentations ont permis de montrer l’apport non négligeable de l’amplification dans notre contexte de recherche.Globalement, ces travaux ont permis de montrer l’intérêt des méthodes d’amplification dans un cadre où les données sont non disponibles et ouvert des perspectives dans cette tâche. S’agissant du recours au modèle de type Transformer choisi dans cette thèse, les modèles développés uniquement pour le français ont montré de bonnes performances par rapport aux modèles multilingues.
-
Titre traduit
Classification of interview transcripts in a low resource context : application of NLP for verbatim analysis for the evaluation of the acceptability of an innovation.
-
Résumé
This thesis work aims to respond to a request initiated by the company Ixiade. The request was to explore Natural language processing methods in order to propose a content classification tool. Two types of data were used throughout the study : interview transcripts and online data. Both came from studies carries out to assess the acceptability of an innovation.This research work uses data amplification methods combined with Transformer-based-models to classify transcribed oral data and online data stemming from a community platform. The contributions are as follows: (1) Proposal of a methodology to build a training corpus in a context where data are unavailable; (2) Proposal of a method for extracting and filtering textual content according to the classes to be classified based on morphosyntactic patterns; (3) Implementing different textual data amplification techniques for transcribed speech and online content; (4) Comparing the performance of different contextualized language models for the French language on our classification task; (5) Examining the contribution of data amplification in a sparse context.Firstly, we built three different training corpora. For this, we implemented a specific procedure for annotating the data.Secondly, we selected a corpus among our three collected corpora to implement an extraction and filtering method. The extraction method produced satisfactory results but was not sufficient to be used to expand our initial training corpus. Furthermore, to limit the error rate produced by this method, we also used a filtering method on the extractions made by the first method. The evaluations and results of the filtering methods did not yield significant results.Thirdly, we focused on data amplification and its contribution to the classification task we had to perform. For this purpose, we compared the results of different amplification methods combined with various transformer-based-architectures. These experiences have shown the significant contribution of amplification in our research context.Overall, this work has shown the interest in amplification methods in a context where data are unavailable and opened perspectives in this task. Regarding the use of the chosen transformer-based model in this thesis, the French models showed good performances compared to the multilingual model.
Source: http://www.theses.fr/2022GRALM052
.