Voy a insistir en que, a falta de un plan de análisis bien definido o de un protocolo para tratar dichos valores, la respuesta es: los dejas. Se comunican los resultados no adulterados como análisis primario: aquel en el que se considera que el valor p responde a la pregunta principal. Si es necesario e instructivo discutir los resultados de excluir los puntos de alto valor, esto se considera un análisis secundario o post-hoc y tiene un peso de evidencia significativamente menor, más un resultado "generador de hipótesis" que uno "confirmador de hipótesis".
La razón para no excluir estos valores es que se compromete la interpretación de los resultados y la reproducibilidad del análisis. Cuando se toman decisiones ad hoc sobre qué valores merece la pena incluir y cuáles no, no se puede confiar en que otro estadístico haga lo mismo. La práctica de descartar observaciones es muy mala para la ciencia. Al hacerlo, en realidad se revisa la hipótesis (porque se ha definido la población de forma distinta a la original), y la nueva "población" se define paradójicamente por lo que se ha observado. El valor p, por tanto, no significa lo que la gente cree que significa, y es, en cierto modo, un resultado falsificado.
Esto cuestiona el papel de las estadísticas de diagnóstico. Puede parecer que abogo por no utilizarlas nunca. Es todo lo contrario. Ejecutar diagnósticos sólo es bueno en la medida en que ayuda a comprender los supuestos inherentes al modelo. Como dijo Box: "Todos los modelos son erróneos, algunos modelos son útiles". Incluso con tendencias no lineales, a veces la relación lineal se aproxima lo suficiente como para darnos "reglas empíricas" que valen para orientar la toma de decisiones. Tomemos el relación entre la exposición al plomo al nacer y el cociente intelectual en la edad adulta . Muy pocos niños, por no decir ninguno, tienen una exposición 0 al plomo. Prácticamente todos nosotros hemos estado expuestos de tal forma que nuestro coeficiente intelectual ha disminuido significativamente con respecto a lo que podría haber sido de otro modo. Cuando se toman muestras de individuos de esta manera, es casi seguro que se encontrarán uno o más individuos altamente influyentes que tienen una baja exposición al plomo y un alto coeficiente intelectual. Piense en la diferencia en las hipótesis que se prueban en última instancia en los escenarios en los que tales individuos se excluyen o se mantienen en el análisis primario.
Cuando los diagnósticos indican observaciones problemáticas, es necesario abordar una serie de cuestiones:
-
¿Existen fuentes desconocidas de variación o covariación dentro de los subgrupos? Por ejemplo, ¿una correlación entre los miembros de un hogar o una oleada de pruebas de laboratorio realizadas por un laboratorio contratado con un equipo mal calibrado?
-
¿Se mantiene aproximadamente el modelo de la media? ¿Se comprueba la hipótesis con mayor precisión utilizando un enfoque de modelización más flexible, como con splines de suavizado o efectos polinómicos de orden superior?
-
¿Se tiene suficientemente en cuenta la ponderación de las variaciones? En la modelización LS, esto significa que los errores estándar se calculan a partir de datos homocedásticos o bien se utilizan errores estándar robustos. Los MLG reponderan automáticamente estos datos según los modelos de probabilidad de los resultados. En ese caso, ¿es correcto el modelo de probabilidad?