32 votos

Acomodar las opiniones arraigadas sobre los valores p

A veces, en los informes incluyo un descargo de responsabilidad sobre los valores p y otras estadísticas inferenciales que he proporcionado. Digo que, como la muestra no era aleatoria, esos estadísticos no se aplican estrictamente. Mi redacción específica suele figurar en una nota a pie de página:

"Aunque, en sentido estricto, la estadística inferencial estadística inferencial sólo es aplicable en el contexto del muestreo aleatorio, seguimos convención al informar de los niveles de significación niveles de significación y/o intervalos de confianza como criterios convenientes incluso para muestras no aleatorias. Véase la obra de Michael Oakes Inferencia estadística: Un comentario para la sociedad y el comportamiento ciencias sociales y del comportamiento (NY: Wiley, 1986).

En un par de ocasiones -una vez para un artículo revisado por pares, una o dos veces en un entorno no académico- el editor o el revisor se opusieron a esta exención de responsabilidad, calificándola de confusa, y consideraron que las conclusiones inferenciales debían mantenerse tal como estaban escritas (y recibir el manto de autoridad). ¿Alguien más se ha encontrado con este problema y ha encontrado una buena solución? Por un lado, la comprensión de los valores p por parte de la gente es generalmente pésima, incluso en el contexto del muestreo aleatorio, así que quizás no importe mucho lo que digamos. Por otro lado, contribuir aún más a los malentendidos parece convertir a uno en parte del problema. Debo añadir que a menudo me ocupo de estudios de encuestas, en los que no se aplica la asignación aleatoria y en los que las simulaciones de Montecarlo a menudo no resolverían la cuestión de la representatividad.

12voto

Derek Swingley Puntos 3851

El uso de la estadística inferencial puede justificarse no sólo en base a un modelo de población, sino también en base a un modelo de aleatorización. Este último no hace ninguna suposición sobre la forma en que se ha obtenido la muestra. De hecho, Fisher fue quien sugirió que el modelo de aleatorización debía ser la base de la inferencia estadística (a diferencia de Neyman y Pearson). Véase, por ejemplo:

Ernst, M. D. (2004). Métodos de permutación: Una base para la inferencia exacta. Statistical Science, 19, 676-685. [enlace (acceso abierto)]

Ludbrook, J. y Dudley, H. (1998). Por qué las pruebas de permutación son superiores a las pruebas t y F en la investigación biomédica. American Statistician, 52, 127-132. [enlace (si tiene acceso a JSTOR)]

Sin embargo, dudo que los editores o revisores en cuestión hayan utilizado esto como motivo para calificar su descargo de responsabilidad de "confuso".

11voto

Brettski Puntos 5485

En efecto, se puede argumentar que no hay que incluir la cláusula de exención de responsabilidad. Francamente, un breve tratado sobre la naturaleza de los valores p en un artículo de una revista me parecería un poco desagradable, y por un momento tendría que detenerme para tratar de averiguar si has hecho algo particularmente... esotérico... para justificar la dedicación de ese espacio a un punto de definición.

Básicamente, como revisor, lo calificaría de innecesario porque el lector ya debería saber qué es y qué hace un valor p. Incluso podría objetar a ello porque hacer tal nota no evita realmente ninguno de los muchos crímenes de análisis e interpretación que acompañan a los valores p, simplemente se pone un manto de "confía en mí, sé lo que estoy haciendo". También es un poco impar - "Voy a hacer una postura audaz contra los valores p, pero no tan audaz que no los informe".

Cuando considero "opiniones arraigadas sobre los valores p", me preocupa mucho menos algo como lo que has publicado más arriba, y mucho más preocupados por la insistencia de los revisores en la significación estadística para ser publicados o el enfoque del artículo (poner una estrella junto a un hallazgo y, de repente, es una gran cosa) o mezclar la significación estadística con la importancia de un hallazgo.

7voto

Nick Stauner Puntos 8220

Todavía no he tenido que batallar con ningún mal crítico, así que no podría afirmar que sé cómo salir de una batalla que ya ha comenzado. Sin embargo, si sus objeciones son una mera cuestión de ignorancia obstructiva, un poco de distracción preventiva podría servir. Si $p$ Si los valores son de hecho necesarios para informar a pesar de su invalidez no despreciable en un estudio problemático (una clase en la que caen demasiados artículos publicados), uno podría restarles importancia implícitamente. Considere la posibilidad de centrar su narración, incluso exclusivamente, en los tamaños de los efectos. Si su estudio es lo suficientemente representativo como para ser útilmente informativo (esto no debería requerir un muestreo perfectamente aleatorio, sólo precaución en la generalidad de las interpretaciones), sus tamaños de efecto deberían tener implicaciones más amplias que simplemente indicar la existencia y las direcciones de las relaciones o diferencias de todos modos. Centrar la discusión en los tamaños de los efectos puede facilitar una comprensión más profunda de la importancia de las relaciones o diferencias en un sentido práctico, aunque esto todavía debe considerarse en el contexto del tema de estudio (por ejemplo, no se puede concluir por el tamaño solo que un $r = .03$ no es necesariamente importante si puede pertenecer a un asunto de vida o muerte; Rosenthal, Rubin y Rosnow, 2000) . Puede hacerlo discutiendo los resultados en términos de relaciones "débiles", "moderadas" o "fuertes" o de diferencias "pequeñas" o "grandes" en lugar de referirse a ellas como "significativas" e "insignificantes"; estas dos últimas palabras no deberían ser necesarias en absoluto para hacer la mayoría de los puntos que los investigadores quieren plantear. Si el $p$ valores son necesarios, que hablen por sí mismos. Hágale un favor a los meta-analistas y simplemente intercalen informes más completos de estadísticas valiosas: tamaños de efecto, intervalos de confianza y estadísticas de prueba. Tal vez esperemos que llegue el día en que los lectores y revisores ignoren $p$ valores y exigen intervalos de confianza, por lo que el $p$ valores pueden ser abandonados por completo. (¡O tal vez no! ¡Véase la posdata!)

Otra opción, potencialmente complementaria, sería ampliar su nota a pie de página. Tanto sus descripciones del problema tal y como lo han experimentado los revisores, como la respuesta actualmente aceptada en esta página, sugieren que no se transmite suficiente información para explicar su motivación para incluir la nota a pie de página, ni lo suficiente para motivar al lector a seguir su cita a la referencia que utiliza para explicarla tan escuetamente. Una sola frase adicional, incluso una breve cita de su referencia, podría contribuir en gran medida a explicar el valor de su nota a pie de página y motivar a los lectores a profundizar en ella. Evidentemente, su nota a pie de página, tal y como está, motiva una reacción simple, negativa y despectiva hacia su subestimado intento de interrumpir su complacencia sobre sus suposiciones inadecuadas. Los lectores podrían ser un poco menos perezosos intelectualmente si les dieras uno o dos puntos principales sobre problemas que probablemente pasan por alto de forma rutinaria. Además, para muchos problemas concretos con $p$ valores, considere la posibilidad de citar no sólo ese libro, sino también un artículo de revista bastante conciso que está disponible en línea de forma gratuita actualmente (por ejemplo, Goodman, 2008 , Wagenmakers, 2007 ) . Eso podría ayudar a reducir cualquier resistencia debida a la dificultad de obtener un libro y encontrar la información pertinente dentro.

P.D. Gracias a @rpierce por Wagenmakers (2007) y gran parte de la lógica de mi respuesta, y a @FranciscoArceo por Goodman (2008) ¡! Véase también la página de Francisco respuesta poco relacionada así como otras publicaciones populares aquí en Cross Validated sobre la interpretación de $p$ valores correctamente:

P.P.D. El contrapunto de @MichaelLew también vale la pena considerarlo antes de lanzar el $p$ ¡valores por completo! Véase Senn (2001) y Lew (2013) para algunas defensas raras y valiosas (pero sólo parciales) de $p$ . [Editar]: Además, he planteado esta cuestión en una nueva pregunta, " ¿Por qué los resultados de 0,05 < p < 0,95 se llaman falsos positivos? " En la discusión de mi respuesta, el OP trajo a colación Hurlbert y Lombardi (2009) que planteé a mis colegas, uno de los cuales sacó a relucir Nuzzo (2014) un nuevo Noticias de la naturaleza artículo que dio lugar a más referencias ( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner y Greenberg, 2007 ) ...evidentemente no estoy al día en este punto, pero está claro que Michael no es el único que defiende la posibilidad de extraer información útil de los datos exactos $p$ valores (cuando se hacer "aplicar estrictamente", al menos).

Referencias

- Goodman, S. N. (1992). Un comentario sobre la replicación, P -valores y pruebas. Estadísticas en Medicina, 11 (7), 875-879.
- Goodman, S. N. (2001). De P -valores y Bayes: una modesta propuesta. Epidemiología, 12 (3), 295-297. Extraído de http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Una docena sucia: Doce P -valores erróneos. Seminarios de Hematología, 45 (3), 135-140. Extraído de http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+valor+conceptos.pdf .
- Gorroochurn, P., Hodge, S. E., Heiman, G. A., Durner, M., & Greenberg, D. A. (2007). La no replicación de los estudios de asociación: ¿"pseudofracasos" de replicación? La genética en la medicina, 9 (6), 325-331. Extraído de http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, S. H., & Lombardi, C. M. (2009). Final collapse of the Neyman-Pearson decision theoretic framework and rise of the neoFisherian. Annales Zoologici Fennici, 46 (5), 311-349. Extraído de http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, M. J. (2013). To P or not to P: On the evidential nature of P-values and their place in scientific inference. arXiv:1311.0081 [stat.ME]. Recuperado de http://arxiv.org/abs/1311.0081 .
- Nuzzo, R. (2014, 12 de febrero). El método científico: Los errores estadísticos. Noticias de la naturaleza, 506 (7487). Recuperado de http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Rosenthal, R., Rosnow, R. L., y Rubin, D. B. (2000). Contrastes y tamaños del efecto en la investigación del comportamiento: Un enfoque correlacional. Cambridge University Press.
- Senn, S. (2001). ¿Dos hurras por los valores P? Revista de Epidemiología y Bioestadística, 6 (2), 193-204. Extraído de http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf .
- Wagenmakers, E. J. (2007). Una solución práctica a los problemas generalizados de p valores. Psychonomic Bulletin & Review, 14 (5), 779-804. Extraído de http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X