Pourquoi corrélation n’est pas causalité

Attention, sujet technique ! Mais ne fuyez pas, car comprendre la différence entre causalité et corrélation est le b.a-ba de l’analytique. Confondre ces deux notions est fréquent et peut être source d’erreur au moment de prendre une décision. Voici quelques exemples simples et des explications pour briller dans les dîners, et surtout ne plus tomber dans le piège.

Considérons les propositions suivantes. Si les personnes ayant fréquenté une grande école disposent en moyenne d’un meilleur salaire, c’est parce que ces établissements offrent les meilleurs débouchés ; si les fumeurs ont tendance à être stressés, c’est justement à cause de leur consommation de cigarettes ; si les parents sont plus matures, c’est parce qu’ils ont eu des enfants. Si vous êtes à peu près d’accord avec ces trois affirmations, vous confondez probablement corrélation et causalité. En effet, s’il existe bien une relation statistique entre diplômes et revenus élevés, ou entre cigarettes et stress, cela ne signifie pas forcément que le premier implique le second. Autrement dit que corrélation n’est pas causalité.

Pour bien saisir la différence entre ces deux notions, il faut comprendre que dériver un lien de cause à effet est normalement le résultat d’une démarche scientifique rigoureuse, basée sur des données expérimentales (dites « randomisées »). Dans la recherche médicale, par exemple, on étudie l’efficacité d’un nouveau médicament en séparant aléatoirement les patients en deux groupes : les premiers disposent du principe actif, les seconds d’un placebo (mais ils ne le savent pas). Il n’y a pas d’autres critères que le hasard pour former les groupes. On réduit ainsi quasiment à néant la probabilité qu’un facteur autre que le médicament ait une influence sur l’évolution de l’état de santé du patient. Si une amélioration est observée chez les malades utilisant le principe actif mais pas chez les autres, la probabilité est maximale que ce soit grâce au traitement. On peut ainsi établir un lien de cause à effet entre prise du médicament et guérison.

Mais dans la majorité des secteurs économiques, les données ne peuvent pas être obtenues de manière expérimentale, soit pour des raisons de coût, soit pour des raisons éthiques. On a alors affaire à des données dites d’observation, où les biais sont très nombreux, et à partir desquelles dériver des liens de cause à effet, sans être impossible, est loin d’être évident. C’est précisément la principale fonction de l’analytique, dont le but est, grâce à des méthodes statistiques éprouvées, de valider des hypothèses de causalité que l’on peut formuler à partir des données. Et d’éviter les raisonnements farfelus basés sur des corrélations comme la disparition concomitante des pirates avec l’aggravation du réchauffement climatique !

Lire l’article (en anglais)

En complément :

un article (en anglais) à propos d’une controverse médicale liée à la confusion entre corrélation et causalité

et un autre sur la culture des big data en général

À lire sur Business Analytics Info :

« Quand Gilles Babinet analyse la révolution big data »

et « Quelques grands principes sur les big data »