La taille du pénis des citoyens corrélée au PIB de leur pays ↗ ? La science progresse, parfois… à coups d’études totalement délirantes. Depuis quelque temps, des chercheurs se sont même mis à étudier ces études absurdes.
La corrélation, cette grande mytho.
Il faut bien l’admettre : plus on entasse de données, plus on déniche des corrélations… disons, créatives. Et certaines sont si improbables qu’on se demande si les chercheurs n’ont pas laissé leur cerveau au vestiaire. Prenons quelques exemples du data scientist Tyler Vigen, qui s’est amusé à compiler des corrélations statistiques aussi authentiques qu’extravagantes (tylervigen.com). Parmi les plus célèbres :
Les courbes sont juste magnifiques. Les coefficients de corrélation atteignent parfois la quasi‑perfection (jusqu’à 0,99). Et pourtant… il n’y a évidemment aucun lien causal. Nicolas Cage ne pousse pas les gens dans les piscines quand il tourne. Enfin… espérons. Et si les ventes de glace augmentent en même temps que les noyades, ce n’est pas parce que les glaces poussent les gens à se jeter à l’eau. C’est simplement parce qu’il fait chaud. Donc tout ça ne sert à rien.
Le mot du jour : métascience, la science qui étudie la science.
Les exemples précédents illustrent un phénomène statistique bien connu : les corrélations fallacieuses (spurious correlations). Le principe est simple. Quand on dispose de quelques dizaines de variables, on trouve peu de relations. Mais quand on en dispose de millions, les probabilités explosent. Certaines variables finiront forcément par évoluer ensemble juste par hasard. C’est un peu comme regarder les nuages : si on en observe suffisamment longtemps, on finira toujours par voir un lapin, Napoléon ou un grille‑pain. Quand on torture les données assez longtemps, elles finissent par avouer.
Second mot du jour : nomothétique. Désigne une approche scientifique qui étudie un grand nombre de cas afin de dégager des lois générales.
Des chercheurs comme Giuseppe Longo et Cristian Calude ont montré que le problème devient structurel avec le big data. Plus la base de données est grande, plus il devient facile de produire des corrélations statistiquement très fortes… mais qui n’ont aucun sens. Le phénomène est aggravé par une pratique appelée p‑hacking. Elle consiste à tester énormément d’hypothèses jusqu’à ce qu’une relation statistiquement significative apparaisse. Si vous lancez suffisamment de filets dans l’océan des données, vous finirez toujours par attraper quelque chose. Même si c’est un vieux pneu.
La science qui fait rire…
Les scientifiques sont suffisamment lucides pour en rire. Chaque année, les célèbres Ig Nobel récompensent ainsi de véritables recherches (publiées dans de véritables revues) qui « font d’abord rire, puis réfléchir ». Parmi les perles passées :
Statistiques sous influence
Visiblement, la science n’est pas aussi triste qu’on pourrait le croire. Pas aussi « vraie » non plus. Le journaliste scientifique John Ioannidis a publié en 2005 un article devenu célèbre : « Why Most Published Research Findings Are False » ↗. Selon lui, la majorité des résultats scientifiques sont faux à cause de biais statistiques, de taille d’échantillons et de la pression à publier. L’article est devenu l’un des textes les plus influents de la métascience, car il a contribué à lancer le débat sur la crise de reproductibilité dans plusieurs disciplines, et donc sur la fiabilité de la recherche.
La science produit parfois des résultats absurdes. Mais c’est justement parce qu’elle doute d’elle‑même qu’elle progresse. Les mauvaises corrélations finissent par disparaître. Les bonnes, elles, résistent aux tests. Ou pas.
Saviez-vous que le premier smiley a été inventé par des chercheurs (à l’humour douteux) ?