Repenser la significativité statistique à l’ère des big data et open data

La revue académique « The American Statistician » vient de publier un texte intitulé « Moving to a World Beyond p < 0.05 », l’occasion de revenir sur les fondamentaux de la significativité statistique avec Elliot Inman, Docteur en Psychologie Expérimentale, et Manager of Software Development chez SAS® Global Hosting.

Au cours des 25 dernières années Elliot Inman a été amené à analyser des données dans des domaines aussi variés que l’efficacité de la publicité print et numérique, l’impact des services sociaux, ou encore l’analyse des demandes de remboursement de frais médicaux. Il est aujourd’hui à la tête de l’équipe SAS Visual Analytics, spécialiste de la data visualization pour « GatherIQ », l’app lancée par SAS pour soutenir le mouvement « data for good » (les données au service de grandes causes).

Rappelons que la significativité statistique d’un résultat est une mesure estimée du degré pour lequel ce résultat est juste, au sens de représentatif de la population analysée. Dans le domaine des statistiques, une probabilité inférieure à 0,05 ou 5% (p<.05) est souvent associée aux résultats d’études pour rappeler qu’au maximum 5% des résultats pourraient être dus au hasard. Or comme l’explique Elliot Inman nous disposons à présent grâce aux big data et open data de vastes jeux de données réelles qui nous obligent à revoir ce qui était précédemment acceptable dans la limite de p<.05, limite dont certaines études aux résultats sensationnalistes ont largement abusé.

Elliot Inman : « Quand j’ai pour la première fois eu accès à des données Mainframe correspondant à plus de 30 000 répondants d’une étude, je n’ai pas pu m’empêcher de commencer par une analyse de corrélation de toutes les variables. Mais le résultat m’a troublé. Tout ce que je voyais cellule après cellule c’était des .01 et je n’arrivais pas à trouver de corrélation dans les résultats. J’ai fini par réaliser, à ma grande surprise que la corrélation était 0.01 et que la valeur p était .01, ce qui a changé pour toujours ma compréhension des statistiques. »

Avec l’accès à de très grands jeux de données, nous savons que les échantillons que nous analysons sont des échantillons de populations plus larges que nous avons-nous même extraits. Nous n’avons plus besoin de p<.05 pour généraliser des résultats obtenus sur de plus petits échantillons. Bien sûr il faut être prudent car toutes les données ne sont pas des big data, et elles peuvent être biaisées, mais la représentativité d’un échantillon est plus facile à mesurer quand vous avez accès aux données de l’ensemble d’une population pour la tester.

Cela ne signifie par la mort de la valeur p, qui restera un outil important pour distinguer un signal dans le bruit des données. Mais le monde des statistiques est aujourd’hui appelé à faire évoluer ses méthodes en insistant sur la fiabilité et la validité des analyses.

Lire l’article