8 votos

¿Cuándo existe el valor esperado o la varianza de la estadística $t$ esperada?

La distribución del estadístico $t$ de Student se conoce cuando la variable aleatoria $x$ sigue una distribución Normal. Sin embargo, a veces lo aplicamos a variables aleatorias extraídas de otras distribuciones. Me pregunto si existen condiciones conocidas, suficientes y necesarias, para que la esperanza del estadístico $t$, o su varianza, sean conocidas que existan (es decir, sean finitas).

Por ejemplo, en el caso extremo si $x$ fuera extraída de una distribución de Bernoulli, habría una probabilidad no nula de que la varianza de la muestra sea cero, y por lo tanto $t$ es infinito o no definido, y la esperanza de $t$ no existe. Por lo tanto, presumiblemente "la varianza de la muestra es positiva casi con seguridad" es una condición necesaria. Estoy buscando más condiciones como esta (y que sean más fáciles de verificar).

2voto

user164061 Puntos 281

El caso de distribuciones independientes e idénticas para las variables $X_i$ en la muestra

La distribución (no central) t es proporcional a la distribución del inverso de la tangente del ángulo de la muestra $\vec{x}$ con la línea diagonal $x_1 = x_2 = \dots = x_n$.

$$t = \frac{\sqrt{n-1}}{\text{tan}(\theta)}$$

El caso problemático es cuando este ángulo es 0 grados, en cuyo caso $\tan(\theta) = 0$ y el inverso es infinito.

Distribución discreta

En tu ejemplo con una distribución de Bernoulli tienes una distribución discreta y hay una probabilidad no nula de que $\theta = 0$, o de que la muestra $\vec{x}$ esté en la línea diagonal.

Cuando esa probabilidad es distinta de cero, entonces la media de $t$ (y otros momentos) será infinita o indefinida. Esto sucede con cualquier muestreo discreto independiente e idéntico porque hay una probabilidad no nula

$$P(X_1 = X_2 = \dots = X_n) = \sum_{\forall x} P(X=x)^n$$

Distribución continua

Se puede imaginar la distribución de la muestra $\vec{x}$ proyectada en una esfera de radio $1$ y ver cómo está distribuida cerca de los dos puntos de intersección con la diagonal.

Para distribuciones continuas, la probabilidad de que $\theta = 0$ será cero (a menos que tengas una muestra completamente correlacionada), pero lo que también importa es cómo cambia la densidad en el vecindario de $\theta = 0$.

Para que el valor esperado sea finito, necesitamos que la segunda derivada de la distribución de $z = \tan(\theta)$ sea cero en el punto $z=0$. Dado que

$$E[1/z] = \int_{-\infty}^{0} \frac{1}{z} f(z) dz + \int_0^\infty \frac{1}{z} f(z) dz$$

...

Continuará, imagino que podemos encontrar alguna distribución que se concentre en uno o más valores de manera que para casos con $n = 3$ no tengamos una media finita (a diferencia del caso de una distribución normal). También cuando $X$ ya tiene una media finita, entonces probablemente $t$ también tendrá una media finita.

0voto

user164061 Puntos 281

Área de pruebas/Boceto

Esta respuesta no está completa y es solo un boceto que estoy intentando para mejorar mi otra respuesta (donde me quedé atascado).

  • Imagen 1: La distribución t está relacionada con el ángulo de la distribución con la diagonal. O alternativamente con la distancia del punto de datos a la diagonal.

  • Imagen 2: Alternativamente podemos verlo como una distribución de los datos proyectados en una esfera unitaria centrada alrededor de $\mu$.

  • Imagen 3: El problema se resuelve alrededor de que el ángulo sea cero o que la distancia $h$ sea cero.

    Cuando la probabilidad no es cero, entonces obviamente el promedio será infinito o indefinido (porque hay una probabilidad no nula de 1/0).

    Pero también cuando la probabilidad es cero, entonces el promedio y otros momentos pueden ser infinitos o indefinidos. La expectativa de $E[1/H]$, ya sea que sea infinita o indefinida, o no, dependerá de cuán fuertemente la distribución de $H$ cambie cerca de cero. Por ejemplo, si la segunda derivada es cero, entonces esta es una condición suficiente.

    Muchas distribuciones tendrán una situación tal que $P(H sigue una regla cuadrática cuando la dimensión es 3 (y reglas de orden superior cuando la dimensión es mayor). Esto sugiere que el promedio será finito.

    El problema restante es formalizar esto y encontrar los casos límite donde este enfoque falla.

imagen 1 imagen 2 imagen 3

0voto

kjetil b halvorsen Puntos 7012

Una forma de investigar esto es a través de la simulación. Dado que la pregunta trata sobre la existencia de momentos, podríamos utilizar algún estimador del índice de cola de la distribución de la estadística T, que está relacionado con la existencia de la expectativa y otros momentos una definición del índice de cola aquí.

Por ejemplo, simularé $N=100000$ veces a partir de una distribución uniforme en $(-1,1)$. La distribución de la estadística T es

introducir descripción de la imagen aquí

con una densidad $t_4$ superpuesta. Pero es el comportamiento de la cola lo más importante, lo cual es difícil de juzgar a partir de dicho gráfico. Intentemos un gráfico de distribución relativa, comparándolo nuevamente con el $t_4$:

histograma con densidad t superpuesta

lo cual indica colas más pesadas. Luego intentemos con el estimador de Hill:

gráfico del estimador de Hill

(la curva inferior es el estimador de EPD, vea el código a continuación). Esto al menos indica un índice de cola < 1, por lo que la expectativa no existe, a diferencia del $t_4$.

Código R:

sim_Tstat <- function(N, n, rparent=rnorm, mu_0=0) {
  Tstat <- replicate(N, 
                     {x <- rparent(n)
                      t <- sqrt(n)*(mean(x)-mu_0)/sd(x)
                      t})
  return(Tstat)
}

library(ReIns)
library(reldist)

set.seed(7*11*13)

test <- sim_Tstat(1E5, 5, rparent=\(n){runif(n, min=-1, max=1)})

hist(test, prob=TRUE, xlim=c(-5,5), breaks="FD")
plot( \(x) dt(x, df=4), from=-5, to=5, col="red", add=TRUE)

reldist(test, qt(ppoints(1E5), df=4), method="bgk") 

Hill(test[test>0], plot=TRUE)
EPD(test[test>0], add=TRUE)

-1voto

leech Puntos 122

La distribución de la estadística t de Student es conocida cuando la variable aleatoria x sigue una distribución Normal. A veces, sin embargo, la aplicamos a variables aleatorias extraídas de otras distribuciones. Me pregunto si existen condiciones conocidas, suficientes y necesarias, en las que se sepa que la esperanza de la estadística t, o su varianza, existan (es decir, sean finitas).

Si las observaciones siguen una distribución normal, la estadística t sigue una distribución t bajo la hipótesis nula, pero debes tener en cuenta que con muchas observaciones se puede aproximar a la distribución normal estándar. Las "otras distribuciones" que mencionas para las observaciones son la categoría bastante amplia a la que se puede aplicar el Teorema del Límite Central (CLT). Por lo tanto, la distribución límite para la estadística t ya es la distribución normal estándar. Por lo tanto, parece que las condiciones que mencionas para la finitud de los primeros dos momentos de la estadística t se remontan a las del CLT.

Por ejemplo, en el extremo si x fuera extraído de una distribución de Bernoulli, existiría una probabilidad distinta de cero de que la varianza de la muestra sea cero, y por lo tanto la t es infinita o no está definida, y la esperanza de t no existe.

Algo así casi con toda seguridad no ocurrirá si los datos provienen de una distribución Normal, y esto es cierto para cualquier muestra grande que cumpla con las suposiciones del CLT.

Finalmente, el CLT implica la convergencia de la estadística t a la distribución normal estándar, pero, como se señala en el comentario de Whuber, el CLT no implica la convergencia de los momentos. De hecho, la convergencia en la distribución no implica generalmente la convergencia en los momentos. Este problema es una debilidad de mi argumento. No lo resolveré ahora; se aceptan sugerencias.

Puedo señalar, sin embargo, que incluso si la convergencia en la distribución no implica la convergencia de momentos, no es cierto que la convergencia en la distribución implique o sugiera la ausencia de convergencia de momentos. El problema del que estamos hablando aquí puede tener poca relevancia en la práctica, y sospecho que así es.

La regla "la convergencia en la distribución no implica la convergencia en los momentos" también es útil como advertencia sobre el hecho de que algunos momentos pueden no existir. Sin embargo, como se mencionó anteriormente, el CLT se trata de la convergencia de la estadística t con la distribución normal estándar. Me resulta difícil encontrar un caso intuitivo y concreto en el que la estadística t se aproxime a la distribución normal estándar, pero la media y la varianza sean significativamente diferentes en comparación con lo que esa distribución debería implicar. Además, incluso si se muestran algunos casos, deberían ser patológicos y el mensaje principal de mi propuesta puede permanecer.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X