Photo de: José Alejandro Cuffia

Pourquoi "Ce qui marche" ne se trouve pas dans la recherche en éducation

Si l’on veut améliorer la qualité et l’informativité de la recherche en éducation, il sera nécessaire de prendre une mauvaise habitude - en se concentrant sur le fait de savoir si une intervention éducative «fonctionne» ou non.

Et les efforts déployés pour répondre à cette question par le biais d'un test de signification de l'hypothèse nulle (NHST), qui explore si une intervention ou un produit a un effet sur le résultat moyen, compromettent la capacité de progresser de manière durable pour aider les étudiants à apprendre. Il fournit peu d'informations utiles et échoue lamentablement en tant que méthode pour accumuler des connaissances sur l'apprentissage et l'enseignement.

À quoi ressemble NHST en action? Une question typique de la recherche en éducation pourrait être de savoir si les résultats moyens aux tests diffèrent entre les étudiants qui utilisent un nouveau jeu de mathématiques et ceux qui ne le font pas. En appliquant NHST, un chercheur déterminerait si une différence de scores est suffisamment grande pour conclure que le jeu a eu un impact ou, en d’autres termes, qu'il «fonctionne».

Pourquoi, combien et pour qui?

Cette approche imprègne la recherche en éducation. Cela se reflète dans l’initiative d’agrégation et d’évaluation de la recherche en éducation soutenue par le gouvernement américain, qui porte bien son nom de centre d’échange d’information What Works, et sert souvent de test décisif pour la validité des publications dans des revues spécialisées. Pourtant, il a fait l’objet de critiques cinglantes presque depuis sa création, critiques qui portent sur deux questions.

Faux positifs et autres pièges

Premièrement, obtenir des preuves statistiques d'un effet est extrêmement simple en recherche expérimentale. Cela est particulièrement vrai pour les chercheurs en éducation utilisant de faibles contrôles, posant des théories vagues, comparant plusieurs variables, rapportant de manière sélective des résultats significatifs et utilisant des analyses de données souples. L’une des constatations émergentes de la crise actuelle de la recherche en psychologie est qu’au lieu de servir de gardien responsable de la fiabilité des résultats publiés, le recours à des tests de signification statistique a eu l’effet opposé de créer une littérature remplie de faux positifs et d’effets surestimés. et des conceptions de recherche sous-puissantes.

En supposant qu'une intervention proposée implique que les étudiants fassent pratiquement tout ce qui est plus stimulant sur le plan cognitif que d'écouter passivement des conférences comme d'habitude (le contrôle typique de l'homme de paille dans la recherche en éducation), un chercheur est pratiquement assuré de trouver une différence positive tant que la taille de l'échantillon est assez large. Démontrer qu'une intervention éducative a un effet positif est un obstacle assez faible à surmonter. Combiné avec un biais de publication répandu en faveur de résultats positifs, il n’est pas du tout choquant que dans l’éducation, presque tout semble fonctionner.

Cependant, même si ces problèmes méthodologiques liés à la NHST étaient résolus, il existe un deuxième défaut grave qui sape le cadre de la NHST sur lequel repose la plupart des recherches expérimentales en éducation.

Le test de signification de l'hypothèse nulle est une impasse épistémique. Cela évite aux chercheurs de se concentrer sur la spécification et le développement de modèles testables de leurs théories permettant de prédire et d’expliquer les effets d’une intervention. En fait, la seule hypothèse évaluée dans le cadre de NHST est une caricature, une hypothèse à laquelle le chercheur ne croit pas, à savoir qu'une intervention n'a aucun effet. L’hypothèse d’un chercheur n’est jamais testée ni même clairement énoncée. Et pourtant, avec un aplomb presque universel, les chercheurs en éducation concluent à tort que le rejet de l'hypothèse nulle compte comme une preuve solide en faveur de leur théorie préférée.

En conséquence, NHST encourage et préserve des hypothèses si vagues, si peu capables en termes de pouvoir prédictif et de contenu théorique, qu'elles sont presque inutiles. Il a été décrit comme un "râteau intellectuel stérile", une activité qui "retarde la croissance des connaissances scientifiques".

Et contrairement aux idées reçues, le fait de constater que les données observées sont peu probables dans l’hypothèse nulle (p. Ex. P <0,5) ne permet pas de conclure à l’acceptation ou au rejet d’une hypothèse, car la valeur nulle est la seule théorie à l’étude.

Le fait que des données soient improbables sous l’effet nul de zéro n’entraîne pas, c’est plus probable avec une autre théorie.

Comme le réalisent les chercheurs en psychologie, même des théories bien connues, apparemment étayées par des centaines d’expériences contrôlées randomisées, peuvent commencer à s’évaporer sous surveillance, car le recours à des tests de signification par hypothèse nulle signifie qu’une théorie n’est jamais vraiment testée. Tant que les chercheurs en éducation continueront de s’appuyer sur la validité de l’hypothèse de non-différence selon laquelle il n’ya pas de différence pour établir si une intervention «fonctionne», nous lutterons pour améliorer notre compréhension de la meilleure façon d’aider les étudiants à apprendre. Et le domaine de l’éducation continuera à être dominé par «des collections d’observations sans explication, c’est-à-dire une simple« collection de timbres »» (Ashton, 2013, p. 585).

Comme le notent les analystes Michael Horn et Julia Freeland, ce paradigme dominant de la recherche en éducation est lamentablement incomplet et doit changer si nous allons progresser dans notre compréhension de la manière d'aider les étudiants à apprendre:

«Un programme de recherche efficace va au-delà de la simple identification de corrélations de ce qui fonctionne en moyenne pour articuler et tester des théories sur la manière et les raisons de certaines interventions éducatives dans différentes circonstances pour différents étudiants.»

Cependant, pour les chercheurs universitaires qui s’occupent principalement de produire des preuves publiables des interventions qui «fonctionnent», la nature vague de NHST n’a pas été largement reconnue comme un problème grave. Et comme l’approche NHST en matière de recherche est simple, peu exigeante sur le plan intellectuel et relativement sûre (les chercheurs ont une excellente chance d’obtenir la réponse qu’ils veulent), il n’est donc pas surprenant qu’il y ait eu peu d’incitation à changer.

Avancer

Plutôt que de se contenter de répondre à la question de savoir si un produit ou une intervention «fonctionne», les chercheurs en éducation peuvent améliorer la fiabilité de leurs résultats et contribuer à une meilleure compréhension de la manière d'aider les étudiants à apprendre en modifiant leur approche de plusieurs manières. .

  • Reconnaître les informations limitées que NHST peut fournir. En tant que cadre statistique principal pour faire progresser notre compréhension de l'apprentissage et de l'enseignement, il est mal utilisé car il ne nous dit finalement rien que nous voulons réellement savoir. En outre, il contribue à la prolifération de résultats erronés dans l’éducation en encourageant des pratiques de recherche discutables et en signalant les effets d’intervention surestimés.
  • Au lieu de s'appuyer sur NHST, les chercheurs devraient se concentrer sur la formulation de prévisions fondées sur des bases théoriques, puis sur la conception d'expériences afin de les tester par rapport à des solutions de remplacement significatives. Plutôt que de rejeter l’hypothèse inintéressante de «non-différence», l’objectif premier devrait être d’améliorer notre compréhension de l’impact des interventions et la meilleure façon de le faire est de comparer les modèles qui se font concurrence pour décrire les observations issues de l’expérimentation.
  • Plutôt que de faire des jugements dichotomiques sur le point de savoir si une intervention fonctionne ou non en moyenne, il faudrait accorder une plus grande importance à l'évaluation afin d'analyser l'impact des interventions sur des sous-ensembles d'élèves et de conditions. Aucune intervention ne fonctionne aussi bien pour chaque élève et c’est le travail créatif et imaginatif consistant à essayer de comprendre pourquoi et où une intervention a échoué ou a été couronnée de succès. Nous devons apprendre à accepter l’incertitude et à accepter la variation plutôt que de l’ignorer.

Références

Ashton, J. C. (2013). Le pouvoir expérimental provient de théories puissantes - le vrai problème des tests d'hypothèses nulles. Nature Reviews Neuroscience, 14, 585–585.

Cette pièce a été initialement publiée sous une forme modifiée sur EdSurge.