23 votos

Interpretación de resultados no significativos como "tendencias"

Recientemente, dos compañeros de trabajo diferentes han utilizado un tipo de argumento sobre las diferencias entre las condiciones que me parece incorrecto. Ambos compañeros de trabajo utilizan la estadística, pero no son estadísticos. Yo soy un novato en estadística.

En ambos casos, argumenté que, al no haber una diferencia significativa entre dos condiciones en un experimento, era incorrecto hacer una afirmación general sobre estos grupos con respecto a la manipulación. Tenga en cuenta que "hacer una afirmación general" significa algo así como escribir "El grupo A utilizó X con más frecuencia que el grupo B".

Mis compañeros de trabajo replicaron con "aunque no haya una diferencia significativa, la tendencia sigue estando ahí" y "aunque no haya una diferencia significativa, sigue habiendo una diferencia". Para mí, ambas frases suenan a equívoco, es decir, cambiaron el significado de "diferencia" de: "una diferencia que probablemente sea el resultado de algo distinto al azar" (es decir, la significación estadística), a "cualquier diferencia no nula en la medición entre grupos".

¿Fue correcta la respuesta de mis compañeros de trabajo? No lo abordé con ellos porque tienen un rango superior al mío.

2 votos

Estos artículos me han resultado útiles Todavía no es significativo y Marginalmente significativo

37voto

Ben Bolker Puntos 8729

Esta es una gran pregunta; la respuesta depende mucho del contexto.

En general, diría que tienes razón : haciendo un no calificado Una afirmación general como "el grupo A utilizó X con más frecuencia que el grupo B" es engañosa. Sería mejor decir algo como

en nuestro experimento, el grupo A utilizó X con más frecuencia que el grupo B, pero no sabemos con certeza cómo se comportará esto en la población general

o

aunque el grupo A utilizó X un 13% más que el grupo B en nuestro experimento, nuestra estimación de la diferencia en la población general no es clara los valores plausibles van desde A hasta X 5%. menos a menudo que el grupo B a A utilizando X un 21% más a menudo que el grupo B

o

el grupo A utilizó X un 13% más que el grupo B, pero la diferencia no fue estadísticamente significativa (IC del 95%: -5% a 21%; p=0,75)

Por otro lado: sus compañeros de trabajo tienen razón en que en este experimento en particular Sin embargo, a la gente rara vez le importan los participantes de un experimento concreto; lo que quieren saber es cómo se generalizarán los resultados a una población mayor, y en este caso la respuesta general es que no se puede decir con seguridad si un grupo A seleccionado al azar utilizará X más o menos a menudo que un grupo B seleccionado al azar.

Si tuviera que elegir hoy entre el tratamiento A o el tratamiento B para aumentar el uso de X, en ausencia de cualquier otra información o diferencias en los costes, etc., entonces elegir A sería su mejor opción. Pero si quisieras estar seguro de que probablemente estás tomando la decisión correcta, necesitarías más información.

Tenga en cuenta que debe no decir "no hay diferencia entre el grupo A y el grupo B en su uso de X", o "el grupo A y el grupo B usan X la misma cantidad". Esto no es cierto ni para los participantes de su experimento (en el que A utilizó X un 13% más) ni para la población general; en la mayoría de los contextos del mundo real, usted sabe que realmente debe haber algunos efecto (por leve que sea) de A frente a B; simplemente no se sabe en qué dirección va.

7 votos

Una hermosa respuesta, Ben. Me pregunto si tu segunda afirmación de ejemplo podría ser modificada para mayor claridad y reflejar la esencia de la primera afirmación de ejemplo: "aunque el grupo A utilizó X un 13% más a menudo que el grupo B EN NUESTRO EXPERIMENTO, la diferencia en el uso de X entre los grupos de la población general no estaba clara el rango plausible de esa diferencia fue de A usando X 5% menos a menudo que el grupo B a A usando X un 21% más a menudo que el grupo B".

3 votos

gracias, parcialmente incorporado (tratando de equilibrar la brevedad/claridad y la precisión ...)

9 votos

+1 Creo que mucha gente no se da cuenta de que, a falta de pruebas estadísticas, las diferencias observadas pueden ser perfectamente lo contrario de lo que ocurre con la población.

6voto

asdf Puntos 106

Es una pregunta difícil.

Lo primero es que cualquier umbral que se elija para determinar la significación estadística es arbitrario. El hecho de que la mayoría de la gente utilice un $5\%$ $p$ -valor no lo hace más correcto que cualquier otro. Así que, en cierto sentido, hay que pensar en la significación estadística como un "espectro" y no como un tema de blanco o negro.

Supongamos que tenemos una hipótesis nula $H_0$ (por ejemplo, grupos $A$ y $B$ muestran la misma media para la variable $X$ o la media de la población para la variable $Y$ es inferior a 5). Se puede pensar en la hipótesis nula como la hipótesis de "no tendencia". Recogemos algunos datos para comprobar si podemos refutar $H_0$ (la hipótesis nula nunca se "demuestra verdadera"). Con nuestra muestra, hacemos algunas estadísticas y finalmente obtenemos una $p$ -valor . En pocas palabras, el $p$ -El valor es la probabilidad de que el puro azar produzca resultados igualmente (o más) extremos que los que obtuvimos, asumiendo por supuesto $H_0$ sea cierto (es decir, sin tendencia).

Si obtenemos una "baja" $p$ -valor, decimos que el azar raramente produce resultados como esos, por lo tanto rechazamos $H_0$ (hay pruebas estadísticamente significativas de que $H_0$ podría ser falso). Si obtenemos un "alto" $p$ -valor, entonces es más probable que los resultados sean fruto de la suerte, más que de la tendencia real. No decimos $H_0$ es cierta, sino que hay que seguir estudiando para rechazarla.

ADVERTENCIA: A $p$ -valor de $23\%$ no significa que haya una $23\%$ probabilidad de que no haya ninguna tendencia, sino que el azar genera resultados como los $23\%$ del tiempo, que suena similar, pero es una cosa completamente diferente. Por ejemplo, si afirmo algo ridículo, como "puedo predecir los resultados de tirar los dados una hora antes de que se produzcan", hacemos un experimento para comprobar la hipótesis nula $H_0:=$ "No puedo hacer tal cosa" y obtener un $0.5\%$ $p-$ valor, seguiría teniendo buenas razones para no creerme, a pesar de la importancia estadística.

Así que, con estas ideas en mente, volvamos a tu pregunta principal. Digamos que queremos comprobar si el aumento de la dosis del fármaco $X$ tiene un efecto sobre la probabilidad de que los pacientes sobrevivan a una determinada enfermedad. Realizamos un experimento, ajustamos un modelo de regresión logística (teniendo en cuenta muchas otras variables) y comprobamos la significación del coeficiente asociado a la variable "dosis" (llamando a ese coeficiente $\beta$ , pondríamos a prueba una hipótesis nula $H_0:$ $\beta=0$ o tal vez, $\beta \leq 0$ . En inglés, "the drug has no effect" o "the drug has either no or negative effect".

Los resultados del experimento arrojan una beta positiva, pero la prueba $\beta=0$ se mantiene en 0,79. ¿Podemos decir que hay una tendencia? Bueno, eso realmente disminuiría el significado de "tendencia". Si aceptamos ese tipo de cosas, básicamente la mitad de todos los experimentos que hagamos mostrarían "tendencias", incluso cuando se hagan pruebas para las cosas más ridículas.

Así que, en conclusión, creo que no es honesto afirmar que nuestro fármaco marca alguna diferencia. Lo que deberíamos decir, en cambio, es que nuestro fármaco no debería ponerse en producción a menos que se realicen más pruebas. De hecho, yo diría que deberíamos seguir teniendo cuidado con las afirmaciones que hacemos incluso cuando se alcanza la significación estadística. ¿Tomaría usted ese medicamento si el azar tuviera una $4\%$ de generar esos resultados? Por eso es fundamental la replicación de la investigación y la revisión por pares.

Espero que esta explicación, demasiado complicada, le ayude a ordenar sus ideas. El resumen es que tienes toda la razón. No deberíamos llenar nuestros informes, ya sea de investigación, de negocios o de lo que sea, con afirmaciones descabelladas apoyadas en pocas pruebas. Si realmente crees que hay una tendencia, pero no alcanzaste la significación estadística, ¡repite el experimento con más datos!

2 votos

+1 por señalar que cualquier El umbral de significación es arbitrario (y, por consiguiente, no es posible inferir afirmaciones absolutas sobre la población general a partir de los resultados de una muestra: todo lo que se obtiene son mejores probabilidades).

5voto

user164061 Puntos 281

Efecto significativo sólo significa que se ha medido una anomalía improbable (improbable si la hipótesis nula, ausencia de efecto, fuera cierta). Y como consecuencia hay que dudar con alta probabilidad (aunque esta probabilidad no es igual al valor p y también depende de las creencias previas).

Dependiendo de la calidad del experimento se podría medir el mismo efecto tamaño pero podría no ser una anomalía (no es un resultado improbable si la hipótesis nula fuera cierta).

Cuando se observa un efecto pero no es significativo, entonces sí que puede estar ahí (el efecto), pero sólo no es significativo (las mediciones no indican que se deba dudar/rechazar la hipótesis nula con alta probabilidad). Significa que debes mejorar tu experimento, reunir más datos, para estar más seguro.

Por lo tanto, en lugar de la dicotomía efecto frente a sin efecto, deberías optar por lo siguiente cuatro categorías:

four categories

Imagen de https://en.wikipedia.org/wiki/Equivalence_test explicar el procedimiento de las pruebas t de dos caras (TOST)

Parece que estás en la categoría D, la prueba no es concluyente. Puede que sus compañeros se equivoquen al decir que hay un efecto. Sin embargo, ¡es igualmente erróneo decir que no hay ningún efecto!

0 votos

"Efecto significativo sólo significa que mediste la hipótesis nula (ausencia de efecto) debe ser dudada con alta probabilidad". Estoy muy en desacuerdo con esta afirmación. Que pasaría si te dijera que puedo predecir el resultado de cualquier lanzamiento de moneda, hacemos un experimento, y por pura suerte obtenemos un 1% $p$ -¿valor? ¿Diría que hay una alta probabilidad de que la hipótesis nula sea falsa?

0 votos

@David, estoy completamente de acuerdo contigo en que el valor p es más precisamente una medida para "la probabilidad de que cometamos un error condicional de que la hipótesis nula sea cierta" (o la probabilidad de ver esos resultados extremos), y no expresa directamente "la probabilidad de que la hipótesis nula sea errónea". Sin embargo, creo que el valor p no debe utilizarse en este sentido "oficial". El valor p se utiliza para expresar la duda en la hipótesis nula, para expresar que los resultados indican una anomalía y las anomalías deberían hacernos dudar de la nula....

0 votos

....en su caso, cuando usted demuestra desafiar el efecto nulo (desafiar la idea de que no se pueden predecir las monedas) aportando un caso raro (como el de la señora que degusta el té) entonces sí deberíamos tener dudas en la hipótesis nula. En la práctica tendríamos que establecer un valor p apropiado para esto (ya que de hecho uno podría desafiar la nula por mera casualidad), y yo no utilizaría el nivel del 1%. La alta probabilidad de dudar de la nula no debería equipararse, uno a uno, con el valor p (ya que esa probabilidad es más un concepto bayesiano).

1voto

blahblah Puntos 1

Parece que están discutiendo el valor p frente a la definición de "Tendencia".

Si se trazan los datos en un gráfico de ejecución, se puede ver una tendencia... una serie de puntos de trazado que muestran una tendencia ascendente o descendente a lo largo del tiempo.

Pero, cuando se hacen las estadísticas al respecto.. el valor p sugiere que no es significativo.

Para que el valor p muestre poca significación, pero para que vean una tendencia / recorrido en la serie de datos... tendría que ser una tendencia muy leve.

Por lo tanto, si ese fuera el caso, volvería a recurrir al valor p.. Es decir, sí, hay una tendencia/corriente en los datos pero es tan leve e insignificante que las estadísticas sugieren que no vale la pena seguir analizándola.

Una tendencia insignificante es algo que puede atribuirse a algún tipo de sesgo en la investigación tal vez algo muy menor algo que puede ser simplemente una ocurrencia única en el experimento que sucedió para crear una ligera tendencia.

Si yo fuera el director del grupo, les diría que dejaran de perder tiempo y dinero indagando en tendencias insignificantes, y que buscaran otras más significativas.

1voto

Adam Puntos 25

Parece que en este caso tienen poca justificación para su afirmación y sólo están abusando de las estadísticas para llegar a la conclusión que ya tenían. Pero hay ocasiones en las que está bien no ser tan estricto con los límites del p-val. Esto (cómo utilizar la significación estadística y los límites de pval) es un debate que ha estado en auge desde que Fisher, Neyman y Pearson sentaron las bases de las pruebas estadísticas.

Digamos que estás construyendo un modelo y estás decidiendo qué variables en incluir. Recoges un poco de datos para hacer una investigación preliminar de las posibles variables. Ahora bien, hay una variable en la que el equipo empresarial está realmente interesado, pero su investigación preliminar muestra que la variable no es estadísticamente significativa. Sin embargo, la "dirección" de la variable se ajusta a lo que el equipo empresarial esperaba, y aunque no alcanzó el umbral de significación, estuvo cerca. Tal vez se sospechaba que tenía una correlación positiva con el resultado y se obtuvo un coeficiente beta que era positivo, pero el pval estaba un poco por encima del límite de 0,05.

En ese caso, podría incluirlo. Es una especie de estadística bayesiana informal: había una fuerte creencia previa de que es una variable útil y la investigación inicial sobre ella mostró algunas pruebas en esa dirección (¡pero no pruebas estadísticamente significativas!), así que le das el beneficio de la duda y la mantienes en el modelo. Quizás con más datos sea más evidente la relación que tiene con el resultado de interés.

Otro ejemplo podría ser cuando se está construyendo un nuevo modelo y se observan las variables que se utilizaron en el modelo anterior - se podría seguir incluyendo una variable marginal (una que está en la cúspide de la significación) para mantener cierta continuidad de un modelo a otro.

Básicamente, dependiendo de lo que se haga hay razones para ser más y menos estricto con este tipo de cosas.

Por otro lado, también es importante tener en cuenta que la significación estadística no tiene por qué implicar una significación práctica. Recuerde que en el centro de todo esto está el tamaño de la muestra. Si se reúnen suficientes datos, el error estándar de la estimación se reducirá a 0. Esto hará que cualquier tipo de diferencia, por pequeña que sea, sea "estadísticamente significativa", incluso aunque esa diferencia no suponga nada en el mundo real. Por ejemplo, supongamos que la probabilidad de que una determinada moneda salga cara es de 0,500000000000001. Esto significa que, en teoría, se podría diseñar un experimento que concluyera que la moneda no es justa, pero a todos los efectos la moneda podría ser tratada como una moneda justa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X