La psychiatrie française en revue, etc.: La psychologie est-elle en crise ?

vendredi 8 avril 2016

La psychologie est-elle en crise ?

LE MONDE SCIENCE ET TECHNO | 05.04.2016 | Par David Larousserie

Dans les laboratoires de psychologie, on ne parle que de ça. Le « ça » désigne ce qu’on pourrait appeler « la crise de la reproductibilité », autrement dit les nombreux échecs à retrouver expérimentalement des effets publiés dans la littérature scientifique en psychologie sociale ou cognitive. Or c’est un peu le b.a.-ba de la recherche que de répliquer une expérience pour en valider les conclusions.

La polémique a enflé fin août 2015, lorsqu’un consortium de plus de 250 chercheurs, l’Open Science Collaboration (OSC), a tenté de reproduire 100 résultats publiés précédemment. Les conclusions, présentées dans Science le 28 août 2015 (Le Monde du 2 septembre), ont fait du bruit : moins de la moitié des résultats originaux ont été retrouvés…

Le 4 mars, nouveau tumulte. Quatre chercheurs des universités d’Harvard et de Virginiecritiquent cette étude dans Science. A quoi répondent des membres de l’OSC. Entraînant la réplique, sur un site Web d’Harvard, d’une réponse à la réponse… et une dizaine de billets de blogs de spécialistes peu convaincus par celle-ci. « Nous pensons que l’article de Science a des défauts importants et qu’il n’aurait pas dû être publié », explique Daniel Gilbert, professeur de psychologie de l’université d’Harvard. « Nous avons été surpris par le ton de leur communiqué de presse, assez agressif et définitif, loin des vertus scientifiques de la modestie et du scepticisme », réagit Brian Nosek, psychologue de l’université de Virginie et à l’origine de l’OSC. Guerre ouverte ? « Ce sont simplement des chercheurs qui font ce qu’ils doivent faire : débattre ! », insiste M. Gilbert.

Service militaire ou lune de miel

Les reproches sont tout de même importants. D’abord, les critiques notent que pour être qualifiée de « réplication », une expérience doit être proche de l’original. Et de lister des exemples où ce n’était pas le cas, comme des Israéliens à qui l’on demande d’imaginer les conséquences d’un départ au service militaire, « remplacés » par des Américains partant en lune de miel… Ensuite, une erreur statistique est pointée : le choix des 100 études n’est pas significatif car il n’a pas été fait au hasard. Du coup, extrapoler les conclusions à toute la littérature en psychologie est exagéré. Enfin, un argument plus technique indique que le nombre d’échecs serait compatible avec le seul effet du hasard.

Le premier défaut était connu puisque tous les protocoles ont été détaillés en ligne et beaucoup acceptés par les auteurs originaux. En outre, reproduire à l’identique est impossible et le consortium s’est concentré sur la reproduction des effets et pas d’une copie parfaite. Interviewé par le site Retraction Watch, Brian Nosek y démonte précisément l’exemple des Israéliens et des Américains.

Le deuxième argument est correct mais n’invalide pas l’étude qui ne prétendait pas quantifier l’étendue du problème. En outre, ce n’était pas la première à pointer des défaillances de la reproductibilité. « Je suis assez content que le débat sur la question se concentre cette fois sur des preuves et non des spéculations », explique Brian Nosek.

Quant au troisième argument, beaucoup de spécialistes, dont Brian Nosek, pointent une erreur statistique chez ses détracteurs, liée à une mauvaise définition de ce qu’on appelle l’« intervalle de confiance », très utilisé pour évaluer l’existence ou non d’un effet. L’ironie de l’histoire est qu’une étude de 2014 publiée dans Psychonomic Bulletin & Review a démontré que les spécialistes eux-mêmes utilisent très mal cette notion ! L’OSC ajoute que les critiques ne se sont concentrées que sur un seul des cinq indicateurs choisis pour évaluer le succès d’une expérience. Ou qu’ils ont omis de répondre au fait qu’en moyenne les effets mesurés étaient plus faibles que les originaux.

Des pistes pour corriger la situation sont esquissées depuis plusieurs années. Parmi elles, augmenter la taille des échantillons ; mettre à disposition ses données pour permettre d’éventuelles réanalyses ; développer de nouveaux outils statistiques (et mieux former les étudiants) ; et préenregistrer les protocoles afin de ne pas être tenté de « choisir » les variables qui arrangent. Au-delà de la controverse, la prise de conscience est en route.