16 votos

¿Cómo elegir el nivel de significación de un gran conjunto de datos?

Estoy trabajando con un conjunto de datos que tienen N alrededor de 200.000. En las regresiones, estoy viendo valores significativos muy pequeños << 0,001 asociados con tamaños de efectos muy pequeños, por ejemplo, r=0,028. Lo que me gustaría saber es, ¿hay una manera basada en principios de decidir un umbral de significación apropiado en relación con el tamaño de la muestra? ¿Hay alguna otra consideración importante sobre la interpretación del tamaño del efecto con una muestra tan grande?

10 votos

Se trata de una cuestión de significación práctica frente a la estadística. Si la pendiente es realmente diferente de 0, incluso por una cantidad minúscula (por ejemplo, 0,00000000000001), una muestra lo suficientemente grande producirá un valor muy pequeño. $p$ -valor, a pesar de que el resultado no tiene ninguna importancia práctica. Sería mejor interpretar la estimación puntual en lugar de la $p$ -valor cuando se tiene un tamaño de muestra tan grande.

0 votos

@Macro ¿podría aclarar lo que quiere decir con estimación puntual aquí?

3 votos

Además del comentario de Macro, en esta situación busco la importancia "práctica" o "clínica" de los resultados. Para lo que estás haciendo, ¿es el efecto lo suficientemente grande como para que te importe?

22voto

radpin Puntos 121

En La insignificancia de las pruebas de significación Johnson (1999) señaló que los valores p son arbitrarios, en el sentido de que se pueden hacer tan pequeños como se desee reuniendo suficientes datos, suponiendo que la hipótesis nula es falsa, lo que casi siempre es. En el mundo real, es poco probable que haya correlaciones semiparciales que sean exactamente cero, que es la hipótesis nula en la prueba de significación de un coeficiente de regresión. Los límites de significación del valor P son aún más arbitrarios. El valor de 0,05 como límite entre la significación y la no significación se utiliza por convención, no por principio. Así que la respuesta a su primera pregunta es no, no hay una manera de decidir por principio un umbral de significación apropiado.

Entonces, ¿qué puede hacer, dado su gran conjunto de datos? Depende de las razones que tenga para explorar la significación estadística de sus coeficientes de regresión. ¿Está intentando modelar un sistema multifactorial complejo y desarrollar una teoría útil que se ajuste o prediga razonablemente la realidad? Entonces tal vez podría pensar en desarrollar un modelo más elaborado y adoptar una perspectiva de modelización sobre él, como se describe en Rodgers (2010), La epistemología de la modelización matemática y estadística . Una de las ventajas de tener muchos datos es poder explorar modelos muy ricos, con múltiples niveles e interacciones interesantes (suponiendo que se tengan las variables para hacerlo).

Si, por el contrario, quiere hacer algún juicio sobre si tratar un coeficiente particular como estadísticamente significativo o no, podría tomar la sugerencia de Good (1982) resumida en Woolley (2003) : Calcule el Valor q como $p\cdot\sqrt{(n/100)}$ que estandariza los valores p a un tamaño de muestra de 100. Un valor p de exactamente 0,001 se convierte en un valor p de 0,045, que sigue siendo estadísticamente significativo.

Entonces, si es significativo utilizando un umbral arbitrario u otro, ¿qué pasa con él? Si se trata de un estudio observacional, tiene usted mucho más trabajo para justificar que es realmente significativo en el sentido que usted piensa y no sólo una relación espuria que aparece porque ha especificado mal su modelo. Tenga en cuenta que un efecto pequeño no es tan interesante desde el punto de vista clínico si representa diferencias preexistentes entre las personas que se seleccionan en diferentes niveles de tratamiento en lugar de un efecto del tratamiento.

Hay que considerar si la relación que se observa es prácticamente significativa, como han señalado los comentaristas. Convirtiendo las cifras que citas de $r$ a $r^2$ para la varianza explicada ( $r$ es la correlación, se eleva al cuadrado para obtener la varianza explicada) da sólo un 3 y un 6% de varianza explicada, respectivamente, lo que no parece mucho.

0 votos

¡@rolando2 gracias por la edición, siempre me confundo entre los valores p grandes/pequeños! Creo que si está fuera de la derecha de la distribución es grande, pero el valor p es pequeño.

2 votos

(+1) Este es un hecho importante en el que muchos profesionales no piensan detenidamente: "Los valores p son arbitrarios, en el sentido de que puedes hacerlos tan pequeños como desees reuniendo suficientes datos, asumiendo que la hipótesis nula es falsa, lo que casi siempre es."

0 votos

Gracias. Los puntos de su penúltimo párrafo están bien tomados. Estoy leyendo el artículo de Woolley y me he dado cuenta de que su fórmula del valor q está mal. Debería ser p* y no p/ - He intentado cambiarlo aquí pero las ediciones deben tener más de 6 caracteres.

-3voto

Lars Kotthoff Puntos 253

Supongo que una forma fácil de comprobarlo sería muestrear dos veces al azar un número igualmente grande de lo que se sabe que es una distribución y comparar los dos resultados. Si lo haces varias veces y observas valores p similares, eso sugeriría que no hay un efecto real. Si por el contrario no lo haces, entonces probablemente lo haya.

8 votos

Creo que estás sugiriendo hacer simulaciones bajo la hipótesis nula de que no hay diferencias verdaderas con un tamaño de muestra grande y mirar el $p$ -valores. Puedo decir sin hacer las simulaciones que $<.001$ proporción del resultado $p$ -será tan pequeño como el que observó el cartel original. Esto es cierto para cualquier tamaño de muestra. Esta es la definición de un $p$ -valor.

1 votos

De hecho, el $p$ -valores que saldrán del proceso que has descrito tendrán un ${\rm Uniform}(0,1)$ distribución.

2 votos

En relación con el último comentario de @Macro, he aquí un esbozo de la prueba de que, bajo la hipótesis nula $H_0$ El $p$ -valor tiene $U[0,1]$ distribución. Dada una estadística de prueba $T=T(X)$ si observamos $t=t(x)$ El $p$ -se define como $p(t)=\mathbb{P}(T\geq t\mid H_0)$ . Supongamos que bajo $H_0$ la función de distribución de $T$ es $G_0$ con $G_0$ continua y no decreciente, por lo que tiene inversa $G_0^{-1}$ . Entonces, tenemos $p(t)=1-G_0(t)$ y, para $u\in[0,1]$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X