7 votos

La paradoja de la prueba T: ¿puede añadir un solo punto muy lejos del valor nulo el resultado de significativo a no significativo?

Supongamos que la situación presentada en la foto de $1$. Tenemos un conjunto de $n \in \mathbb{N}$ puntos que tienen una media mayor que la hipótesis nula: $\bar{x}>x_{H_0}$. También se $var(x)$ es tal, que podemos rechazar la hipótesis nula con la prueba t de determinado $\alpha$.

Ahora podemos dibujar uno más $x_{i+1}$ de la muestra y se toma un valor muy grande de $x$ (cuadro $2$). Ejecutamos la prueba t de nuevo. Es posible que el valor p de ahora va a ser estadísticamente significativa, y nosotros no podemos rechazar la hipótesis nula? En otras palabras, ¿hay alguna situación en la que el incremento en la varianza más que compensa el cambio en $\bar{x}$ y de lo que hace que la prueba t estadísticamente insignificante?

Picture 1

Picture 2

14voto

ssn Puntos 472

Tal vez me estoy perdiendo la esencia de esta pregunta, pero: si el siguiente ejemplo es realmente amplia variación de golpe, haciendo que su t-estadístico más pequeños.

Puedes probar con el de seguridad de los datos, por ejemplo

#Test if the average value of the sample c(2, 2.5, 3) is significantly different from zero
#> t.test(c(2,2.5,3))$p.value
#[1] 0.01307246
#Now add a 9 to the sample
#> t.test(c(2,2.5,3,9))$p.value
#[1] 0.08627763

Es posible que el valor p de ahora va a ser estadísticamente significativa y nosotros no podemos rechazar la hipótesis nula? En otras palabras, ¿hay alguna situación en la que el incremento en la varianza más que compensa el cambio en $\bar{x}$ y de lo que hace que la prueba t estadísticamente insignificante?

Creo que he respondido a las dos preguntas con el código de arriba (pero al parecer, todo el mundo sabía ya), así que vamos a profundizar en el t-estadístico ahora:

$$t={\bar x \over S/\sqrt n}$$

So for the first sample, with size $n_1$:

$$t_1={\bar x_1 \over S_1/\sqrt n_1}$$

Now the second one consists of the first one plus another sample, so:

$$t_2={\bar x_2 \over S_2/\sqrt n_2}$$

With:

$$n_2=n_1+1 \\ \bar x_2 = {n_1\cdot \bar x_1 + x_{n_1+1} \over n_1 + 1} \\ S_2^2 = {n_1-1\sobre n_1} \cdot S_1^2 + {(x_{n_1+1}-\bar x_1)^2 \sobre n_1 + 1}={\left(1\sobre n_1+1\right)}\left( {n_1^2-1\sobre n_1} \cdot S_1^2 + (x_{n_1+1}-\bar x_1)^2 \right)$$

$$ t_2= {n_1\cdot \bar x_1 + x_{n_1+1} \\sqrt{{n_1^2-1\sobre n_1} \cdot S_1^2 + (x_{n_1+1}-\bar x_1)^2 }} $$

EDIT: I actually removed some further steps to avoid implicitly assuming some terms were different from zero.

Defining $\delta = x_{n_1+1} - \bar x_1$

$$ t_2= {(n_1+1)\cdot \bar x_1 + \delta \\sqrt{{n_1^2-1\sobre n_1} \cdot S_1^2 + \delta^2 }} $$

Assuming $\delta \neq 0$:

$$ t_2= {\delta \|\delta|}\cdot {{(n_1+1)\cdot \bar x_1\\delta} + 1 \\sqrt{{n_1^2-1\sobre n_1} \cdot \left(\frac{S_1}{\delta}\right)^2 + 1 }}=\\ = \text{signo}(\delta)\cdot {{(n_1+1)\cdot \bar x_1\\delta} + 1 \\sqrt{{n_1^2-1\sobre n_1} \cdot \left(\frac{S_1}{\delta}\right)^2 + 1 }} $$


Por lo tanto re-responder

En otras palabras, ¿hay alguna situación en la que el incremento en la varianza más que compensa el cambio en $\bar{x}$ y de lo que hace que la prueba t estadísticamente insignificante?

Si realizamos $\delta$ arbitrariamente mayor que $\bar x_1$$S_1$:

$$\lim_{\delta\rightarrow\pm\infty} t_2=\text{sign}(\delta)=\pm 1$$

Indeed:

#The original sample is random
x = rnorm(n = 1000, mean = 1E-1, sd = 2)
t.test(x)$st
#       t 
#1.544687 
t.test(c(x,1E10))$st
#t 
#1 
t.test(c(x,-1E10))$st
# t 
#-1    

So basically you can always make $t=\pm1$ with a single addition to the sample, and the smallest obtainable p-value under this regime, with the degrees of freedom tending to infinity, becomes:

2*pnorm(1, lower.tail = FALSE)
#[1] 0.3173105

We can also visualize this conclusion looking at the following plot:

#Our original sample, here a random normal variable
x = rnorm(n = 1000, mean = 0, sd = 2)

png("ttestparadox.png")
plot(0, 0, xlim = c(-10,10), ylim = c(0,1), type = "n", ylab = "p-value", xlab = "Asinh(new_sample)")
abline(h = 2*pnorm(1, lower.tail = FALSE), lwd = 2L, col = 2)
for(i in seq(-10,10,length.out = 101L)) points(x = i, y = t.test(c(x,sinh(i)))$p., pch = 20L)
dev.off()

enter image description here

I've picked new samples in a $\sinh$ scale so we get to large values faster. Anyways, we can see that, when the new sample $x_{n_1+1}$ deviates from $H_0$, the t-statistic goes to 1.


Finally, an example using $\alpha = 0.05$ (mostrado en azul) donde vamos a partir de un resultado estadísticamente significativo (que se muestra como la línea negra discontinua, p = 0.02014321) no significativos resultados en función de la escala de la nueva unidad de la muestra.

set.seed(1234) #reproducible
x = rnorm(n = 1000, mean = 0.2, sd = 2)

png("ttestparadox2.png")
plot(0, 0, xlim = c(-10,10), ylim = c(0,1), type = "n", ylab = "p-value", xlab = "Asinh(new_sample)")
abline(h = 2*pnorm(1, lower.tail = FALSE), lwd = 2L, col = 2)
abline(h = 0.05, lwd = 2L, col = 4)
abline(h = t.test(x)$p.v, lwd = 1, lty = 2)
for(i in seq(-10,10,length.out = 101L)) points(x = i, y = t.test(c(x,sinh(i)))$p., pch = 20L)
dev.off()

enter image description here

6voto

Aksakal Puntos 11351

¿Por qué es esto una paradoja?

Usted está describiendo una situación típica que nos encontramos todos los días: su hipótesis es rechazada, luego se le agrega una observación más y no es rechazado más. Creo que la razón por la que parece una paradoja de las clases es puramente psicológico. Se llama "framing sesgo" en la economía del comportamiento.

Vamos a re-encuadre. Es posible que una muestra mayor, no se rechaza la misma hipótesis de que una muestra pequeña no? Estoy seguro, tendría que decir "¡Seguro! ¿por qué no?". Ahora, tomar una muestra pequeña y empezar a agregar a las observaciones de la muestra más grande. En algún punto de la hipótesis de la voluntad de dejar de ser rechazado. En este punto es exactamente una observación que cambió el resultado. Y esto es lo que muchos de nosotros nos enfrentamos con bastante frecuencia, especialmente en la creación de modelos trimestrales o mensuales de los datos económicos. Un punto de datos puede voltear el resultado de la prueba. Esa es una razón por la que pido a mis modeladores para llevar a cabo la robustez de verificación por el movimiento de los límites de la muestra por un par de períodos y observar si los resultados siguen manteniendo.

ACTUALIZACIÓN

Aquí está la "prueba", es tan rigurosa como la de un físico molestaría para producir por sí mismo.

Tienes un ejemplo: $x_1,x_2$, e $x_2=x_1+\delta$ donde $0<\delta<<1$. La media y la dispersión son:$\bar x_2=x_1+\delta/2$$s_2=\delta/2$.

La prueba de una hipótesis, y la rechazó debido a $\frac{\bar x_2-H_0}{s_2}>c>0$ donde $c$ es un valor crítico correspondiente a su importancia. La forma expandida es $$\frac{2x_1+\delta-2H_0}{\delta}>c>0$$

Ahora, se agrega una tercera observación de la muestra, de tal manera que $x_3>\bar x$. La nueva media es $$\bar x_3=\frac{2x_1+\delta+x_3}{3}$$ y de la dispersión es $$s_3= \sqrt{\delta^2 + \delta (x1 - x3) + (x1 - x3)^2}\sqrt 2/3$$

Vamos a probar la misma hipótesis: $$\frac{\bar x_3-H_0}{s_3}=\frac{\frac{2x_1+\delta+x_3}{3}-H_0}{\sqrt{\delta^2 + \delta (x1 - x3) + (x1 - x3)^2}\sqrt 2/3}$$ $$=\frac{2x_1+\delta+x_3-3H_0}{\sqrt{\delta^2 + \delta (x1 - x3) + (x1 - x3)^2}\sqrt 2}$$ $$\lim_{\delta\to 0}\frac{\bar x_3-H_0}{s_3}=\frac{2x_1+x_3-3H_0}{\sqrt{ (x1 - x3)^2}\sqrt 2} =\frac{2x_1+x_3-3H_0}{(x3 - x1)\sqrt 2}$$

Vamos a hacer un truco aquí: $$a=\frac{x_3-x_1+3x_1-3H_0}{(x3 - x1)\sqrt 2} =\left(1+3\frac{x_1-H_0}{(x3 - x1)}\right)\frac{1}{\sqrt 2}$$ Si usted tira de $x_3$ más a la derecha, de modo que $x_3-x_1>>x_1-H_0$ luego de llegar $$\lim_{\delta\0\\x_3\to\infty}\frac{\bar x_3-H_0}{s_3} =\frac{1}{\sqrt 2}\approx 0.71$$

Observe cómo se podría hacer la prueba estadísticas arbitrariamente grande, escogiendo un pequeño $\delta$ en la muestra original: $$\lim_{\delta\to 0}\frac{\bar x_2-H_0}{s_2}=\infty$$

Esto simplemente demuestra el punto que @whuber destacó en su comentario: el estadístico de prueba se define por una combinación de factores, entre ellos el original de la muestra la media y la varianza, la observación adicional de que, el valor crítico del estadístico de prueba y el valor de $H_0$. Usted tiene un montón si los insumos con los que usted puede construir fácilmente un ejemplo que podría reproducir su "paradoja".

Sin embargo, vuelvo a mi punto de "framing " sesgo": por el texto de su pregunta, de tal manera que todo el enfoque está en la nueva observación, la hizo sonar como si sólo había poca información que refleja la situación al revés, mientras que en realidad hay son todas estas otras entradas que acabo de mencionar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X