Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes
L'apparition d'un document (news, tweet, article, etc.) est conditionnée non seulement par son contenu sémantique, mais également par sa date de publication (par rapport aux publications précédentes) dans une certaine mesure. En jouant sur un hyperparamètre r, il est possible de choisir sur quelle information se focaliser -- le texte ou le temps. Les documents sont ainsi regroupés en clusters en fonction de leur contenu ou de leur dynamique, ou d'une mixture des deux. Sur cette image, nous représentons un des résultats possibles -- l'importance de chaque cluster sur un axe des temps réels, pour un corpus récupéré sur Reddit en avril 2019. Nous récupérons les divers événements qui y sont subvenus -- incendie de Notre-Dâme, photo d'un trou noir, attentats au Sri Lanka, etc.

Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes

2022, Jan 04    

Link to the paper

This work is a translation of the Powered Dirichlet-Hawkes Process article (ICDM 2021) for the EGC conference.

Le contenu textuel d’un document et sa date de publication sont corrélés. Par exemple, une publication scientifique est influencée par les précédents articles cités dans ladite publication. Utiliser cette corrélation permet d’améliorer la compréhension de grands corpus textuel datés. Cependant, cette tâche peut se compliquer lorsque les textes considérés sont courts ou possèdent des vocabulaires similaires. De plus, la corrélation entre texte et date est rarement parfaite.

Nous développons une méthode répondant à ces limites, permettant de créer des clusters de documents en fonction de leur contenu et de leur date : le processus Powered Dirichlet-Hawkes (PDHP). Nous montrons que PDHP présente de meilleures performances que les modèles état de l’art (qu’il généralise) lorsque l’information textuelle ou temporelle est peu informative. Le PDHP se libère également de l’hypothèse d’une corrélation parfaite entre texte et date des documents. Enfin, nous illustrons une possible application sur des données réelles, provenant de Reddit.

Reference:

Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes
G. Poux-Médard, J. Velcin, S. Loudcher, Revue des Nouvelles Technologies de l'Information - p.323-330, 2022

DOI: 10.48550/arXiv.2201.12568