25 votos

Si el tamaño de la muestra es lo suficientemente grande, una prueba siempre mostrará un resultado significativo, a menos que el verdadero tamaño del efecto sea exactamente cero. ¿Por qué?

Tengo curiosidad por una afirmación que se hace en el artículo de Wikipedia sobre tamaño del efecto . Específicamente:

[...] una comparación estadística no nula siempre mostrará un resultado estadísticamente resultados significativos a menos que el tamaño del efecto poblacional sea exactamente cero

No estoy seguro de lo que esto significa/implica, y mucho menos de un argumento que lo respalde. Supongo que, después de todo, un efecto es una estadística, es decir, un valor calculado a partir de una muestra , con su propia distribución. ¿Significa esto que los efectos nunca se deben a la variación aleatoria (que es lo que entiendo que significa no ser significativo)? Entonces, ¿nos limitamos a considerar si el efecto es lo suficientemente fuerte, es decir, si tiene un valor absoluto elevado?

Estoy considerando el efecto con el que estoy más familiarizado: el coeficiente de correlación r de Pearson parece contradecirlo. ¿Por qué cualquier $r$ ser estadísticamente significativo? Si $r$ es pequeña nuestra recta de regresión $$ y=ax+b = r\left(\frac {s_y}{s_x}\right) = \epsilon x+b $$

Para $\epsilon$ pequeño,es cercano a 0, una prueba F probablemente contendrá un intervalo de confianza que contenga 0 para la pendiente. ¿No es esto un contraejemplo?

31voto

Underminer Puntos 1112

Como ejemplo sencillo, supongamos que calculo su estatura con ayuda de un galimatías estadístico.

Siempre has dicho a los demás que mides 177 cm.

Si pusiera a prueba esta hipótesis (que su estatura es igual a 177 cm, $h = 177$ ), y pudiera reducir el error en mi medición lo suficiente, entonces podría probar que eres no de hecho 177 cm. Al final, si estimo su estatura con suficientes decimales, es casi seguro que se desviaría de la estatura declarada de 177,00000000 cm. Tal vez midas 177,02 cm; sólo tengo que reducir mi error a menos de 0,02 para descubrir que no mides 177 cm.

¿Cómo reducir el error en las estadísticas? Obtenga una muestra más grande. Si consigues una muestra lo suficientemente grande, el error se vuelve tan pequeño que puedes detectar las desviaciones más minúsculas de la hipótesis nula.

16voto

Paulius Puntos 369

Como señala @Kodiologist, en realidad se trata de lo que ocurre para tamaños de muestra grandes. Para tamaños de muestra pequeños no hay ninguna razón por la que no pueda haber falsos positivos o falsos negativos.

Creo que el $z$ -aclara el caso asintótico. Supongamos que tenemos $X_1, \dots, X_n \stackrel{\text{iid}}\sim \mathcal N(\mu, 1)$ y queremos probar $H_0: \mu = 0$ vs $H_A: \mu \neq 0$ . Nuestra estadística de prueba es $$ Z_n = \frac{\bar X_n - 0}{1 / \sqrt n} = \sqrt n\bar X_n. $$

$\bar X_n \sim \mathcal N(\mu, \frac 1n)$ así que $Z_n = \sqrt n \bar X_n \sim \mathcal N(\mu \sqrt n, 1)$ . Estamos interesados en $P(|Z_n| \geq \alpha)$ . $$ P(|Z_n| \geq \alpha) = P(Z_n \leq -\alpha)+ P(Z_n \geq \alpha) $$ $$ = 1 + \Phi(-\alpha - \mu\sqrt n) - \Phi(\alpha - \mu \sqrt n). $$ Sea $Y \sim \mathcal N(0,1)$ sea nuestra variable de referencia. En $H_0$ $\mu = 0$ por lo que tenemos $P(|Z_n| \geq \alpha) = 1 - P(-\alpha \leq Y \leq \alpha)$ para que podamos elegir $\alpha$ para controlar nuestra tasa de error de tipo I como deseamos. Pero bajo $H_A$ $\mu \sqrt n \neq 0$ así que $$ P(|Z_n| \geq \alpha) \to 1 + \Phi(\pm\infty) - \Phi(\pm\infty) = 1 $$ por lo que con probabilidad 1 rechazaremos $H_0$ si $\mu \neq 0$ (el $\pm$ es en caso de $\mu < 0$ pero en cualquier caso los infinitos tienen el mismo signo).

La cuestión es que si $\mu$ exactamente es igual a $0$ entonces nuestro estadístico de prueba tiene la distribución de referencia y rechazaremos el 5% (o lo que elijamos) de las veces. Pero si $\mu$ no es exactamente $0$ , entonces la probabilidad de que rechacemos cabezas a $1$ como $n$ aumentos. La idea es que coherencia de una prueba, que es que bajo $H_A$ la potencia (probabilidad de rechazar) se dirige a $1$ como $n \to \infty$ .

Ocurre exactamente lo mismo con la estadística de prueba para comprobar $H_0 : \rho = \rho_0$ frente a $H_A: \rho \neq \rho_0$ con el coeficiente de correlación de Pearson. Si la hipótesis nula es falsa, entonces nuestro estadístico de prueba se hace cada vez más grande en probabilidad, por lo que la probabilidad de que rechacemos se aproxima a $1$ .

9voto

hal clendenin Puntos 11

Podría decirse que lo que dijeron es equivocado, aunque sólo sea por el uso que hacen de "este siempre sucede".

No sé si este es el quid de la confusión eres tener, pero lo publicaré porque creo que muchos lo hacen y se confundirán con esto:

" $X$ ocurre si $n$ es lo suficientemente grande" hace NO media "Si $n > n_0$ entonces $X$ ."

Más bien significa $\lim\limits_{n\to\infty} \Pr (X) = 1$ .

Lo que dicen literalmente se traduce en lo siguiente:

Para cualquier tamaño de muestra $n$ por encima de un tamaño mínimo $n_0$ el resultado de cualquier prueba no nula está garantizado que sea significativo si el verdadero tamaño del efecto no es exactamente cero.

Lo que eran probando que decir, sin embargo, es lo siguiente:

Para cualquier nivel de significación, a medida que aumenta el tamaño de la muestra, la probabilidad de que una prueba no nula arroje un resultado significativo se aproxima a 1 si el verdadero tamaño del efecto no es exactamente cero.

Aquí hay diferencias cruciales:

  • No hay ninguna garantía. Sólo más probablemente para obtener un resultado significativo con una muestra mayor. Ahora bien, podrían eludir parte de la culpa aquí, porque hasta ahora es sólo una cuestión terminológica. En un contexto probabilístico es entendía que la declaración "si n es suficientemente grande entonces X" puede también puede interpretarse en el sentido de "X es cada vez más probable que sea cierto a medida que n crece" .
    Sin embargo, esta interpretación se me va por la ventana en cuanto dicen que esto ocurre "siempre". La terminología adecuada aquí habría sido decir que esto ocurre " con alta probabilidad " 1 .

  • Esto es secundario, pero su redacción es confusa: parece implicar que se fija el tamaño de la muestra para que sea "suficientemente grande", y entonces la afirmación es válida para cualquier nivel de significación. Sin embargo, independientemente de cuál sea el enunciado matemático preciso, en realidad eso no tiene sentido: siempre se fija primero el nivel de significación, y entonces que el tamaño de la muestra sea lo suficientemente grande.
    Pero la sugerencia de que de alguna manera puede ser al revés desafortunadamente hace hincapié en el $n > n_0$ interpretación de "suficientemente grande", por lo que el problema anterior se agrava aún más.

Pero una vez que entiendes la literatura, entiendes lo que intentan decir.

(Nota al margen: por cierto, este es exactamente uno de los problemas constantes que mucha gente tiene con Wikipedia. Con frecuencia, sólo es posible entender lo que dicen si ya se conoce el material, por lo que sólo sirve como referencia o recordatorio, no como material autodidáctico).

<sup>1 </sup>Para los pedantes (¡hola!), sí, el término tiene un significado más específico que el que he enlazado. El término técnico más laxo que probablemente queramos aquí es <em>"asintóticamente casi seguro" </em>. <a href="https://terrytao.wordpress.com/2010/01/01/254a-notes-0-a-review-of-probability-theory/" rel="noreferrer">Ver aquí </a>.

4voto

Ian Agol Puntos 33953

Mi ejemplo favorito es el número de dedos por sexo. La gran mayoría de la gente tiene 10 dedos. Algunos han perdido dedos por accidentes. Otros tienen dedos de más.

No sé si los hombres tienen más dedos que las mujeres (de media). Todas las pruebas fácilmente disponibles sugieren que tanto los hombres como las mujeres tienen 10 dedos.

Sin embargo, estoy seguro de que si hiciera un censo de todos los hombres y todas las mujeres, sabría que uno de los sexos tiene más dedos (de media) que el otro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X