Even statisticians are not immune to misinterpretations of Null Hypothesis Significance Tests

Authors:
Marie‐Paule Lecoutre, Jacques Poitevineau, Bruno Lecoutre
Published Online:
21 Sep 2010
DOI:
10.1080/00207590244000250
Pages:
37–45
Volume/Issue No:
Volume 38 Issue 1

Additional Options

We investigated the way experienced users interpret Null Hypothesis Significance Testing (NHST) outcomes. An empirical study was designed to compare the reactions of two populations of NHST users, psychological researchers and professional applied statisticians, when faced with contradictory situations. The subjects were presented with the results of an experiment designed to test the efficacy of a drug by comparing two groups (treatment/placebo). Four situations were constructed by combining the outcome of the t test (significant vs. nonsignificant) and the observed difference between the two means D (large vs. small). Two of these situations appeared as conflicting (t significant/D small and t nonsignificant/D large). Three fundamental aspects of statistical inference were investigated by means of open questions: drawing inductive conclusions about the magnitude of the true difference from the data in hand, making predictions for future data, and making decisions about stopping the experiment. The subjects were 25 statisticians from pharmaceutical companies in France, subjects well versed in statistics, and 20 psychological researchers from various laboratories in France, all with experience in processing and analyzing experimental data. On the whole, statisticians and psychologists reacted in a similar way and were very impressed by significant results. It must be outlined that professional applied statisticians were not immune to misinterpretations, especially in the case of nonsignificance. However, the interpretations that accustomed users attach to the outcome of NHST can vary from one individual to another, and it is hard to conceive that there could be a consensus in the face of seemingly conflicting situations. In fact, beyond the superficial report of “erroneous” interpretations, it can be seen in the misuses of NHST intuitive judgmental “adjustments” that try to overcome its inherent shortcomings. These findings encourage the many recent attempts to improve the habitual ways of analyzing and reporting experimental data.

Nous avons étudié la manière dont des utilisateurs expérimentés interprètent les résultats des Tests de Signification de l'Hypothèse Nulle. Une étude empirique a été menée pour comparer les réactions de deux populations d'utilisateurs, des chercheurs en psychologie et des statisticiens professionnels, face à des situations conflictuelles. On présentait aux sujets les résultats d'une expérience planifiée pour tester l'efficacité d'un médicament en comparant deux groupes (traitement/placebo). Quatre situations étaient construites en combinant l'issue du test t (significatif vs. non‐significatif) et la différence observée D entre les deux moyennes (grande vs. petite). Deux de ces situations apparaissaient conflictuelles (t significatif/D petite et t non‐significatif/D grande). Trois aspects fondamentaux de l'inférence statistique étaient examinés au moyen de questions ouvertes: tirer une conclusion inductive sur la grandeur de la vraie différence, faire une prédiction relative à des données futures et prendre une décision sur l'arrět de l'expérience. Les sujets étaient 25 statisticiens de l'industrie pharmaceutique en France, donc experts en statistique, et 20 chercheurs en psychologie de différents laboratoires français, ayant tous une expérience de l'analyse des données expérimentales. Dans l'ensemble, les statisticiens et les psychologues se sont comportés d'une manière similaire et ont été très influencés par les résultats significatifs. Un résultat important est que les statisticiens ne sont pas à l'abri des abus d'interprétation des tests, en particulier quand le résultat est non significatif. Cependant l'interprétation des tests peut varier considérablement d'un individu à l'autre et est loin de donner lieu à un consensus face à des situations en apparence conflictuelles. En fait, au delà du constat superficiel de l'existence d'interprétations “erronées”, on peut voir dans les mésusages des tests des “ajustements” de jugement intuitifs, pour tenter de surmonter leurs insuffisances fondamentales. Ces résultats encouragent les nombreuses tentatives récentes d'améliorer les procédures habituelles pour analyser les données expérimentales et présenter les résultats.

Investigamos la manera en la que usuarios experimentados interpretan los resultados de las Pruebas de Significacia de la Hipótesis Nula (PSHN). Se diseñó un estudio empírico para comparar las reacciones de dos poblaciones de usuarios de las PSHN, psicólogos investigadores y profesionales de la estadística aplicada, enfrentados a situaciones contradictorias. Los participantes del estudio se enfrentaron a los resultados de un experimento diseñado para someter a prueba la eficacia de un fármaco en el que se comparaban dos grupos (tratamiento/placebo). Se construyeron cuatro situaciones en las que se combinaba el resultado de la aplicación de la prueba t (significativo vs no significativo) y las diferencias observadas entre las dos medias d (grandes o pequeñas). Estas dos situaciones eran conflictivas (t significativa/ D pequeña, y t no significativa / D grande). Se investigó tres aspectos fundamentales de la inferencia estadística por medio de preguntas abiertas: derivación de conclusiones inductivas sobre la magnitud de la diferencia verdadera de los datos disponibles, realización de predicciones para datos futuros, y toma de decisiones sobre si dar por terminado el experimento. Los participantes fueron 25 profesionales de la estadística de compañías farmacéuticas en Francia, versados en estadística, y 20 psicólogos investigadores con experiencia en el procesamiento y análisis de datos experimentales. En total, los estadísticos y los psicólogos respondieron de manera similar y se mostraron impresionados por el hecho de que los resultados fuesen significativos. Debe subrayarse que los profesionales de la estadísticas no eran inmunes a las malas interpretaciones, especialmente en el caso de la no significancia. No obstante, las interpretaciones que los usuarios habituados adjudican al resultado de las PSHN pueden variar de un individuo a otro, y es difícil concebir que hubiera consenso frente a situaciones ostensiblemente conflictivas. De hecho, más allá del informe superficial de las interpretaciones “erróneas”, puede apreciarse el mal uso de los “ajustes” en el juicio intuitivo de las PSHN que intenta corregir sus limitaciones inherentes. Estos hallazgos promueven los muchos intentos recientes por mejorar las formas habituales de analizar e informar sobre los datos experimentales.

© 2003 International Union of Psychological Science