12 votos

Ejemplo de Estadística Suficiente e Insuficiente?

Tengo dificultades para entender el concepto de estadística suficiente. He leído ¿Qué es una estadística suficiente? y Estadística Suficiente (Wikipedia)

¿Alguien podría darme un ejemplo de:

  1. un modelo estadístico simple (pero no trivial)
  2. una estadística suficiente de ese modelo
  3. una estadística insuficiente de ese modelo
  4. cómo identificaste que 2 y 3 tienen y carecen, respectivamente, de la propiedad de suficiencia

13voto

Knox Puntos 1543

$\def\E{\mathrm{E}}$Consideremos muestras $X = (X_1,X_2)$ de una población distribuida normalmente $N(\mu,1)$ con media desconocida.

Entonces, la estadística $T(X)=X_1$ es un estimador insesgado de la media, ya que $\E(X_1)=\mu$. Sin embargo, no es una estadística suficiente: hay información adicional en la muestra que podríamos usar para determinar la media.

¿Cómo podemos saber que $T$ es insuficiente para $\mu$? Yendo a la definición. Sabemos que $T$ es suficiente para un parámetro si, dado el valor de la estadística, la probabilidad de un valor dado de $X$ es independiente del parámetro, es decir, si

$$P(X=x|T=t,\mu)=P(X=x|T=t)$$

Pero podemos computar esto:

$$P(X=(x_1,x_2) | X_1=t,\mu) = \begin{cases} 0 & \mbox{si }t\neq x_1 \\ \tfrac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(x_2-\mu)^2} & \mbox{si }t=x_1 \end{cases}$$

lo cual ciertamente no es independiente de $\mu$.

Por otro lado, consideremos $T'(X) = X_1+X_2$. Entonces tenemos

$$P(X=(x_1,x_2) | X_1+X_2=t, \mu) = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-\frac{1}{2}(s-\mu)^2 - \frac{1}{2}(t-s-\mu)^2}ds$$

y puedes completar el cuadrado y mostrar que esto es independiente de $\mu$, y por lo tanto $T'$ es una estadística suficiente para la media $\mu$.

0 votos

A mitad de escribir esto, deseé haber elegido una distribución de Bernoulli con parámetro $p$ en lugar de una distribución normal. Habría sido más fácil de entender, menos esfuerzo para mí de escribir, y habría tenido paciencia para hacer la integral al final por mí misma. Avísame si todavía no entiendes, y reescribiré mi respuesta.

0 votos

Creo que se ha hecho clic - la estadística es una función de la muestra. Si se da el resultado estadístico en la muestra, el parámetro desconocido del modelo se vuelve condicionalmente independiente de la muestra, la estadística es suficiente.

0 votos

Casi - si, dado el estadístico, la muestra es independiente del parámetro, entonces el estadístico es suficiente. La independencia condicional y la independencia son cosas diferentes.

0voto

Tone Stangeland Puntos 21

Solo tienes que mirar la forma de una familia exponencial de distribución. La función de los datos en el exponente es la estadística suficiente. El caso más obvio es la media muestral de datos distribuidos normalmente con una varianza conocida. La media muestral es una estadística suficiente para la media poblacional. La información completa en los datos son las n observaciones X1, X2,...,Xn pero no hay información adicional en esos datos que ayude en la estimación de la media poblacional dada la media muestral. Cuando la varianza es desconocida, la media muestral y la varianza muestral representan la estadística suficiente para la media y la varianza poblacionales. La suficiencia es importante porque desempeña un papel importante en la teoría de la estimación de puntos paramétrica. Una estadística insuficiente sería cualquier estadística diferente a la suficiente. Por lo tanto, en la distribución normal, por ejemplo, sea Y1=X1=X2, Y2=X3-X4,... Ym=Xn-1 -Xn para m=n/2 (donde n es par). Entonces Y1, Y2,...,Ym no es suficiente para la media y la varianza de la normal. Así que esto responde a 1-3.

0 votos

¿Cuál es el artículo (3) en tu respuesta?

0 votos

¿Se trata de un error tipográfico, quieres decir "Y1 = X1 - X2" ? ¿Cómo determinaste que tu ejemplo para 3 no fue suficiente?

0 votos

¿Y también el último elemento se supone que debe ser "Ym = Xm-1 - Xm"?

0voto

Tone Stangeland Puntos 21

Aquí está mi intento de responder a la parte 4 de la pregunta. Si tienes una familia paramétrica de distribuciones con un parámetro theta (theta puede ser K-dimensional para K>=1) entonces una estadística es suficiente si toda la información sobre theta está contenida en ella. Eso significa que dada la familia paramétrica, la distribución condicional de los datos dado la estadística suficiente es independiente del parámetro theta. Para muchos problemas hay varias funciones T de los datos que son suficientes. La suficiencia generalmente implica reducción de datos. Por ejemplo, digamos que la familia paramétrica es N(m,1) (m es la media y 1 es la varianza). Para estimar m tomas una muestra de tamaño n=10. Los datos involucran diez valores pero la estadística suficiente (la media muestral) es solo un número. Esa es la menor cantidad de información posible para una estadística suficiente. Este tipo de estadística suficiente es mejor que otras en reducción de datos y se llama suficiente minimal. Para determinar que una estadística candidata es suficiente puedes usar el teorema de factorización para probarlo. Si la candidata T es suficiente factorizará la densidad de la siguiente manera f(x|theta) = g(T(x)|theta) h(x) donde f es la densidad para los datos dados theta, g es la densidad para T(x) dado theta y el término h(x) no depende de theta. Por lo tanto puedes verificar la suficiencia calculando f y g, dividiendo f por g y T será suficiente si la función resultante h no depende (implica) theta. Además de la suficiencia y la suficiencia mínima hay un concepto llamado suficiencia completa. Todos los conceptos son importantes en la teoría paramétrica de la estimación puntual. Esto está bien cubierto en el libro de Inferencia Estadística de Casella y Berger 2ª edición Capítulo 6.

0voto

Antoni Parellada Puntos 276

En relación con la ecuación final del ejemplo en la respuesta aceptada (+1):

La independencia del parámetro de la población $\theta$ de la función de masa de probabilidad condicional del vector aleatorio $\mathrm X = \left(\mathrm X_1,\mathrm X_2, \dots,\mathrm X_n \right),$ correspondiente a $n$ muestras iid, respecto a una estadística $T(\mathrm X)$ de este vector aleatorio se puede entender a través de la partición del espacio muestral por la estadística. La intuición aquí sería de diagramas de Venn que separan de manera única aquellas muestras de tamaño $n$ que suman el mismo valor, o el conjunto de particiones de $n \bar{ \mathrm x}=\sum_{i=1}^n \mathrm x,$ que se pueden pensar como $[x_{n \bar{\mathrm x}}]\left(x^0+x^1+x^2+\cdots\right)^n,$ por ejemplo en el caso de la distribución de Poisson, que tiene soporte $\mathbb N\cup\{0\},$ la media de muestras de $n=10$ dividiría el espacio muestral (diagramáticamente) de la siguiente manera:

descripción de la imagen

Esto explica por qué, considerando $\mathrm X$ como un subconjunto de $T(\mathrm X),$

$$\Pr\left(\mathrm X=\mathrm x \cap T(\mathrm X)=T(\mathrm x)\right)=\Pr\left(\mathrm X=\mathrm x\right)$$

permitiendo la siguiente "prueba" para una estadística suficiente:

$$\begin{align} \Pr\left(\mathrm X=\mathrm x \vert T(\mathrm X)=T(\mathrm x)\right)&=\frac{\Pr\left(\mathrm X=\mathrm x \cap T(\mathrm X)=T(\mathrm x)\right)}{\Pr\left(T(\mathrm X)=T(\mathrm x) \right)}\\[2ex] &=\frac{\Pr\left(\mathrm X=\mathrm x \right)}{\Pr\left(T(\mathrm X)=T(\mathrm x) \right)} \end{align} $$

es decir, si para todos los valores de $\theta$, la proporción de la probabilidad de la muestra sobre la probabilidad de la estadística es constante, la estadística de prueba es suficiente: $\Pr\left(\mathrm X=\mathrm x \vert T(\mathrm X)=T(\mathrm x)\right)$ no depende de $\theta.

Pasando al ejemplo de la respuesta aceptada (2 extracciones de una distribución normal $N(\mu,\sigma)$, $\mathrm X =(\mathrm X_1, \mathrm X_2),$ que representan la muestra completa, $(\mathrm X_1, \mathrm X_2, \cdots, \mathrm X_n)$ en el caso más general, y pasando de las distribuciones de probabilidad discreta (como se ha asumido hasta este punto) a distribuciones continuas (de PMF a PDF), la pdf conjunta de gaussianas independientes (iid) con varianza igual es:

$$\begin{align} f_\mathrm X\left(\mathrm X =\mathrm x\vert\mu\right)&=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left({\frac{-(x_i-\mu)^2}{2\sigma^2}}\right)\\[2ex] &=\frac{1}{(2\pi\sigma^2)^{(n/2)}}\exp\left({\frac{-\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}}\right)\\[2ex] &=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left({\frac{-\sum_{i=1}^n(x_i-\bar x + \bar x -\mu)^2}{2\sigma^2}}\right)\\[2ex] &=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left({\frac{-\left(\sum_{i=1}^n(x_i-\bar x)^2 + n(\bar x -\mu)^2\right)}{2\sigma^2}}\right)\\[2ex] \end{align}$$

La relación de las pdf (el denominador corresponde a la pdf de la distribución de muestreo de la media de la muestra para la normal, es decir, $N(\mu,\sigma^2/n),$ resulta en

$$\begin{align} \frac{f_\mathrm X(\mathrm X =\mathrm x\vert \mu)}{q_{T(\mathrm X)}(T\left(\mathrm X=T(\mathrm x)\right)\vert \mu)}&=\frac{\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left({\frac{-\left(\sum_{i=1}^n(x_i-\bar x)^2 + n(\bar x -\mu)^2\right)}{2\sigma^2}}\right)} {\frac{1}{\left(2\pi\frac{\sigma^2}{n}\right)^{1/2}}\exp\left({\frac{-n(\bar x-\mu)^2}{2\sigma^2}}\right)}\\[2ex] &\propto \exp{\left(\frac{-\left(\sum_{i=1}^n(x_i-\bar x)^2\right) }{2\sigma^2} \right)} \end{align}$$

eliminando la dependencia de un $\mu$ específico.

Todo esto está explicado de manera excelente en Inferencia Estadística de George Casella y Roger L. Berger.

Consecuentemente, la media de la muestra es una estadística suficiente.

En contraste, el valor máximo de la muestra, que es una estadística suficiente de una uniforme $[0,\theta]$ con $\theta$ desconocido, no sería suficiente para estimar la media de muestras gaussianas. El histograma del valor máximo de muestras de 10 de la uniforme $[0,3]$ muestra cómo se aproxima el parámetro $\theta$, permitiendo que el resto de la información de la muestra se descarte:

descripción de la imagen

El máximo sería simplemente un ejemplo extremo de la variable aleatoria única en el vector de muestra publicado como un contraejemplo a una estadística suficiente en la respuesta aprobada.

En este caso, la pdf de la estadística se vuelve engorrosa, involucrando la función error:

$$\frac{1}{2}+\frac{1}{2}\text{erf}\left(\frac{x-\mu}{\sigma\sqrt 2}\right)$$

lo cual (entre otras diferencias entre el numerador y el denominador de las relaciones de pdf) impide deshacerse de $\mu$.

De manera intuitiva, saber el valor máximo de cada muestra no resume toda la información sobre la media de la población, $\mu,$ disponible en la muestra. Esto se ve claramente visualizando la distribución de muestreo de las medias de $10^6$ simulaciones de $n=10$ muestras $N(0,1)$ (a la izquierda) versus la distribución de muestreo de los valores máximos (a la derecha):

descripción de la imagen

Esta última elimina información disponible dentro de la muestra completa necesaria para estimar la media de la población; también es sesgada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X