Ph.D
Group : Large-scale Heterogeneous DAta and Knowledge
Apprentissage de la représentation du style écrit, application à la recommandation d’articles d’actualité
Starts on 20/03/2017
Advisor : BOURDA, Yolaine
[DOAN Bich-Liên]
Funding : Convention industrielle de formation par la recherche
Affiliation : Centrale Supélec
Laboratory : Octopeek et LRI Modhel
Defended on 09/03/2021, committee :
Directrice de thèse :
- Mme Bich-Liên Doan, CentraleSupélec
Co-encadrant de thèse :
- M. Fabrice Popineau, CentraleSupélec
Rapporteurs :
- M. Eric Gaussier, Université Grenoble Alpes
- M. Thierry Poibeau, CNRS et ENS/PSL
Examinateurs :
- Mme Anne Vilnat, Université Paris-Saclay
- Mme Armelle Brun, Université de Lorraine
- M. Benjamin Piwowarski, Sorbonne Université
- M. Max Chevalier, Université Toulouse III - Paul Sabatier
Research activities :
Abstract :
La modélisation des utilisateurs est une étape essentielle lorsqu'il s'agit de recommander des produits et proposer des services automatiquement. Les réseaux sociaux sont une ressource riche et abondante de données utilisateur (p. ex. liens partagés, messages postés) permettant de modéliser leurs intérêts et préférences. Dans cette thèse, nous proposons d'exploiter les articles d'actualité partagés sur les réseaux sociaux afin d'enrichir les modèles existants avec une nouvelle caractéristique textuelle : le style écrit. Cette thèse, à l'intersection des domaines du traitement automatique du langage naturel et des systèmes de recommandation, porte sur l'apprentissage de la représentation du style et de son application à la recommandation d'articles d'actualité. Dans un premier temps, nous proposons une nouvelle méthode d'apprentissage de la représentation du texte visant à projeter tout document dans un espace stylométrique de référence. L'hypothèse testée est qu'un tel espace peut être généralisé par un ensemble suffisamment large d'auteurs de référence, et que les projections vectorielles des écrits d'un auteur « nouveau » seront proches, d'un point de vue stylistique, des écrits d'un sous-ensemble consistant de ces auteurs de référence. Dans un second temps, nous proposons d'exploiter la représentation stylométrique du texte pour la recommandation d'articles d'actualité en la combinant à d'autres représentations (p. ex. thématique, lexicale, sémantique). Nous cherchons à identifier les caractéristiques les plus complémentaires pouvant permettre une recommandation d'articles plus pertinente et de meilleure qualité. L'hypothèse ayant motivé ces travaux est que les choix de lecture des individus sont non seulement influencés par le fond (p. ex. le thème des articles d'actualité, les entités mentionnées), mais aussi par la forme (c.-à-d. le style pouvant, par exemple, être descriptif, satirique, composé d'anecdotes personnelles, d'interviews). Les expérimentations effectuées montrent que non seulement le style écrit joue un rôle dans les préférences de lecture des individus, mais aussi que, lorsqu'il est combiné à d'autres caractéristiques textuelles, permet d'augmenter la précision et la qualité des recommandations en termes de diversité, de nouveauté et de sérendipité.