Analysis and control of online interactions through neural natural language processing by Léo Laugier

octobre 9, 2020 Bibliographie e-commerce 0 Comment

<>div>

Résumé

Le traitement automatique du langage naturel est motivé par des applications où les ordinateurs doivent acquérir une compréhension sémantique et syntaxique du langage humain. Récemment, le domaine a été impacté par un changement de paradigme. Les architectures d’apprentissage profond couplées à des techniques d’apprentissage auto-supervisé sont devenues le cœur des modèles correspondant à l’état de l’art en compréhension et génération du langage naturel. Parfois considérés comme des “foundation models”, ces systèmes ouvrent la voie à de nouveaux cas d’utilisation. Née d’un partenariat académique et industriel entre l’Institut Polytechnique de Paris et Google AI Research, la présente recherche s’est concentrée sur l’étude de la façon dont les modèles neuronaux de traitement du langage naturel pré-entraînés pouvaient être utilisés pour améliorer les interactions en ligne. Cette thèse a d’abord exploré comment le transfert de style auto-supervisé pouvait être appliqué à la reformulation non-toxique de commentaires offensants dans les conversations en ligne. Dans le contexte de la modération de contenu toxique en ligne, nous avons proposé une méthode de réglage fin d’un modèle texte-à-texte pré-entraîné (T5) avec une fonction-objectif consistant en un auto-encodeur débruiteur cyclique. Le système, baptisé CAE-T5, a été entraîné sur le plus grand jeu de données de détection de toxicité publié à ce jour (Civil Comments) et génère des phrases plus fluides et préservant mieux le contenu initial, comparé aux systèmes antérieurs de transfert de style de texte, selon plusieurs systèmes d’évaluation automatique et une étude faisant appelle à l’évaluation humaine. De plus, l’approche a montré qu’elle pouvait être généralisée à d’autres tâches de transfert de style, comme le transfert de sentiments. Ensuite, les travaux de recherche ont porté sur l’étude de l’annotation humaine et la détection automatique des sous-ensembles de mots toxiques dans les conversations en ligne. Contrairement aux jeux de données et aux modèles de détection de toxicité qui classifient des messages entiers comme toxiques ou non, la détection des mots toxiques vise à mettre en évidence les mots responsables de la toxicité du message, lorsqu’une telle détection est possible. Nous avons publié un nouveau jeu de données annoté pour entraîner et évaluer les systèmes automatiques, ce qui a conduit à une tâche partagée lors du 15e International Workshop on Semantic Evaluation. Les systèmes proposés pour cette tâche comprennent des modèles fortement supervisés, entraînés à l’aide d’annotations au niveau des mots, ainsi que des approches faiblement supervisées, connues sous le nom d’extraction de raisons, utilisant des classifieurs entraînés sur des ensembles de données externes, potentiellement plus importants, de messages annotés manuellement comme toxiques ou non, sans annotations à l’échelle des mots. En outre, le jeu de données et les systèmes se sont avérés utiles pour analyser les performances des systèmes automatiques et des humains en matière de reformulation des messages toxiques en messages civils.Enfin, nous avons développé un système de recommandation basé sur des avis en ligne, s’inscrivant dans l’explicabilité des préférences prises en compte par les recommandations prédites. La méthode utilise des modèles basés sur la similarité sémantique textuelle pour représenter les préférences d’un utilisateur sous la forme d’un graphe de fragments de texte, où les arrêtes sont définies par la similarité sémantique. Ce modèle de prédiction de notes à mémoire, basé sur le texte, offre la possibilité d’améliorer les explications des recommandations. La méthode est évaluée quantitativement, et nous permet de conclure que l’exploitation du texte de cette manière peut surpasser les performances de modèles de référence utilisé en filtrage collaboratif.

Source: http://www.theses.fr/2022IPPAT035

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Résumé

De nouveaux modes de vie aujourd’hui à de nouveaux récits pour demain : modalités d’adoption de la sobriété et dynamiques de socialisation aux comportements pro-environnementaux des jeunes éco-concernés by Sophie Lechartre

Système de détection de la fraude financière à l’aide d’approches et de techniques d’intelligence artificielle by Adamu Hussaini

Analyse et modélisation de l’impact environnemental du système d’information by Guillaume Bourgeois

Ne manquez pas nos prochaines news

Inscrivez vous !

MAIL

Liens utiles

Evénements

Proposez votre événement !

Analysis and control of online interactions through neural natural language processing by Léo Laugier

Résumé

Releated Posts

De nouveaux modes de vie aujourd’hui à de nouveaux récits pour demain : modalités d’adoption de la sobriété et dynamiques de socialisation aux comportements pro-environnementaux des jeunes éco-concernés by Sophie Lechartre

Système de détection de la fraude financière à l’aide d’approches et de techniques d’intelligence artificielle by Adamu Hussaini

Analyse et modélisation de l’impact environnemental du système d’information by Guillaume Bourgeois

Ne manquez pas nos prochaines news

Inscrivez vous !

MAIL

Liens utiles

Evénements

Proposez votre événement !