Les tweets de la primaire américaine au crible de l’analytique

« Si Donald Trump remporte les élections, j’émigre au Canada. » Ces derniers mois, beaucoup de citoyens américains ont exprimé ce type de sentiment sur Twitter, a observé la société spécialisée dans l’analyse de données politiques Civis Analytics. La campagne des primaires lui donne l’occasion de déployer sa méthode de découverte de tendances dans les conversations publiques du réseau social. Une technique d’analyse qui ne devrait pas laisser les marques insensibles…

Sur Twitter, une tendance est le plus souvent associée à des mots-clés (les fameux « hashtags »). La plupart des analyses de texte issues de tweets reposent sur cette fonctionnalité du réseau social qui vient de célébrer ses dix ans. La société d’analyse de données politiques Civis Analytics a choisi une approche différente pour extraire des connaissances de ces messages de 140 caractères maximum. En particulier, son algorithme de partitionnement (clustering) détermine l’importance des sujets en fonction de leurs co-occurrences, là où les autres méthodes délivrent des résultats influencés par des choix en amont (par exemple des mots-clés obligatoires). L’idée est de laisser les données parler pour saisir les thèmes importants de la conversation globale.

La proximité des élections présidentielles aux États-Unis, précédée d’une primaire très médiatique, constitue un excellent terrain d’expérimentation pour la découverte de tendances. L’une de celles qui émergent des millions de tweets diffusés sur le réseau social à ce sujet concerne la menace de quitter le territoire américain dans le cas où tel candidat l’emporterait. Les termes les plus souvent associés à cette menace (move, moving, leaving) sont : Trump et Canada. S’il est impossible de prévoir dans quelle mesure elle serait mise à exécution, il apparaît assez clairement que la majorité des utilisateurs de Twitter s’exprimant sur le sujet rejettent le favori républicain, et que ceux qui partiraient choisiraient en priorité leur voisin du Nord.

 

Apprentissage non supervisé et réseaux de neurones

 

Pour découvrir ce genre de tendance, Civis utilise une technique d’apprentissage non supervisé lui permettant de mettre en évidence les thèmes de discussion les plus chauds du réseau social. Les mots employés étant associés à beaucoup d’autres sujets, des réseaux de neurones prennent le relais pour trouver les associations les plus fortes entre les mots et les tweets. L’analyste humain intervient enfin pour livrer une interprétation des tendances ainsi extraites. Par exemple, les thèmes de campagne dominants relatifs aux candidats républicains sont la politique d’immigration et la sécurité aux frontières, tandis que les discussions autour de la favorite démocrate, Hillary Clinton, concernent plutôt le planning familial, mais aussi un scandale lié à l’utilisation d’un serveur d’email privé pendant sa mandature de Chef de la diplomatie américaine.

La société d’analyse de données politique s’est également intéressée aux relations entre utilisateurs du réseau social. Comme pour l’identification de sujets de conversation, son algorithme de clustering lui a permis de les regrouper assez facilement en communautés politiques, dénommées « progressistes », « conservateurs » et « médias », et d’en donner une représentation graphique en fonction de l’importance de leur activité sur Twitter.

Extraire des connaissances par le biais de cette technique d’analyse peut s’appliquer à n’importe quel sujet… ou à n’importe quelle marque !

 

Lire l’article (en anglais)

 

En complément :

Un article (en anglais) sur les big data pour le texte 

et un autre (en anglais) sur l’apprentissage automatique pour parer les conséquences des catastrophes naturelles ou humaines 

 

À lire sur Business Analytics Info :

« Faire émerger des tendances dans les flux de données en mouvement »

et

« Renforcer l’impact publicitaire avec l’analytique »