16 votos

Estadística suficiente, problemas de especificidad/intuición

Estoy aprendiendo algo de estadística por diversión y tengo una confusión con respecto a estadísticas suficientes . Escribiré mis confusiones en formato de lista:

  1. Si una distribución tiene $n$ parámetros entonces tendrá $n$ ¿son suficientes las estadísticas?

  2. ¿Existe algún tipo de correspondencia directa entre los estadísticos suficientes y los parámetros? ¿O los estadísticos suficientes sólo sirven como una reserva de "información" para que podamos recrear el escenario y así poder calcular las mismas estimaciones para los parámetros de la distribución subyacente?

  3. ¿Tienen todas las distribuciones suficiente estadística? es decir, ¿puede fallar alguna vez el teorema de la factorización?

  4. Utilizando nuestra muestra de datos, asumimos una distribución de la que es más probable que provengan los datos y entonces podemos calcular estimaciones (por ejemplo, la MLE) para los parámetros de la distribución. Los estadísticos suficientes son una forma de poder calcular las mismas estimaciones para los parámetros sin tener que depender de los propios datos, ¿verdad?

  5. ¿Todos los conjuntos de estadísticas suficientes tendrán una estadística suficiente mínima?

Este es el material que estoy utilizando para tratar de entender el tema: https://onlinecourses.science.psu.edu/stat414/node/283

Por lo que entiendo tenemos un teorema de factorización que separa la distribución conjunta en dos funciones, pero no entiendo cómo somos capaces de extraer el estadístico suficiente después de factorizar la distribución en nuestras funciones.

  1. La pregunta de Poisson planteada en este ejemplo tenía una factorización clara, pero luego se decía que los estadísticos suficientes eran la media muestral y la suma muestral. ¿Cómo sabíamos que esos eran los estadísticos suficientes con sólo mirar la forma de la primera ecuación?

  2. ¿Cómo es posible realizar las mismas estimaciones MLE utilizando estadísticas suficientes si la segunda ecuación del resultado de la factorización dependerá a veces de los valores de los datos $X_i$ ¿a sí mismos? Por ejemplo, en el caso de Poisson la segunda función dependía de la inversa del producto de los factoriales de los datos, ¡y ya no tendríamos los datos!

  3. ¿Por qué el tamaño de la muestra $n$ no es una estadística suficiente, en relación con el ejemplo de Poisson en el página web ? Necesitaríamos $n$ para reconstruir ciertas partes de la primera función, ¿por qué no es también una estadística suficiente?

12voto

jasonmray Puntos 1303

Probablemente le convenga leer sobre la suficiencia en cualquier libro de texto sobre estadística teórica, donde se tratarán con detalle la mayoría de estas cuestiones. Brevemente...

  1. No necesariamente. Son casos especiales: de las distribuciones en las que el soporte (el rango de valores que pueden tomar los datos) no depende del parámetro o parámetros desconocidos, sólo las de la familia exponencial tienen un estadístico suficiente de la misma dimensionalidad que el número de parámetros. Por lo tanto, para estimar la forma y la escala de una distribución Weibull o la ubicación y la escala de una distribución logística a partir de observaciones independientes, el estadístico de orden (todo el conjunto de observaciones sin tener en cuenta su secuencia) es suficiente como mínimo; no se puede reducir más sin perder información sobre los parámetros. Cuando el soporte depende del parámetro o parámetros desconocidos, varía: para una distribución uniforme en $(0,\theta)$ el máximo de la muestra es suficiente para $\theta$ para una distribución uniforme en $(\theta-1,\theta+1)$ el mínimo y el máximo de la muestra son suficientes juntos.

  2. No sé a qué te refieres con "correspondencia directa"; la alternativa que das parece una forma justa de describir las estadísticas suficientes.

  3. Sí: trivialmente los datos en su conjunto son suficientes. (Si oyes a alguien decir que no hay una estadística suficiente quiere decir que no hay una de baja dimensión).

  4. Sí, esa es la idea. (Lo que queda -la distribución de los datos condicionada por el estadístico suficiente- puede utilizarse para comprobar el supuesto de distribución independientemente del parámetro o parámetros desconocidos).

  5. Aparentemente no, aunque deduzco que los contraejemplos no son distribuciones que probablemente quieras usar en la práctica. [Sería bueno si alguien pudiera explicar esto sin entrar demasiado en la teoría de las medidas].

En respuesta a las nuevas preguntas...

  1. El primer factor, $ \mathrm{e}^{-n\lambda}\cdot\lambda^{\sum{x_i}}$ depende de $\lambda$ sólo a través de $\sum x_i$ . Así que cualquier función uno a uno de $\sum x_i$ es suficiente: $\sum x_i$ , $\sum x_i/n$ , $(\sum x_i)^2$ † y así sucesivamente.

  2. El segundo factor, $\tfrac{1}{x_1! x_2! \ldots x_n!}$ no depende de $\lambda$ & por lo que no afectará al valor de $\lambda$ en el que $f(x;\lambda)$ es un máximo. Deriva la MLE y compruébalo tú mismo.

  3. El tamaño de la muestra $n$ es una constante conocida y no un valor realizado de una variable aleatoria ‡ Así que no se considera parte de la estadística suficiente; lo mismo ocurre con los parámetros conocidos distintos de los que se quieren inferir.

† En este caso el cuadrado es uno a uno porque $\sum x_i$ es siempre positivo.

‡ Cuando $n$ es un valor realizado de la variable aleatoria $N$ entonces formará parte de la estadística suficiente, $(\sum x_i,n)$ . Digamos que se elige un tamaño de muestra de 10 o 100 lanzando una moneda: $n$ no dice nada sobre el valor de $\theta$ pero sí afecta a la precisión con la que se puede estimar; en este caso se llama Complemento auxiliar a $\sum x_i$ & la inferencia puede proceder condicionando su valor realizado, en efecto, ignorando que podría haber salido diferente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X