5 votos

Varias preguntas sobre estadísticas suficientes

He estado leyendo sobre estadísticas suficientes, y tengo algunas preguntas cuya respuesta no encuentro en el libro.

  1. ¿Por qué nos importan las estadísticas suficientes en primer lugar? Entiendo que nos gustaría utilizar la estadística suficiente para hacer inferencia sobre el parámetro $\theta$ . Sin embargo, ¿no podemos utilizar la muestra original? ¿O es que hace mucho tiempo no teníamos ordenadores potentes?

  2. Extrañamente, no encuentro ninguna discusión sobre la existencia de estadísticas suficientes/estadísticas mínimas suficientes. ¿Es trivial que dada una muestra aleatoria $X_1,\cdots,X_n \sim f(x\mid \theta)$ ¿podemos encontrar siempre una SS que no sea toda la muestra? ¿Es cierto que siempre podemos encontrar una SSM?

  3. ¿Cómo utilizamos realmente las SS/MSS para inferir $\theta$ ? He leído sobre el método del momento, así como el método de máxima verosimilitud, pero sólo utilizan toda la muestra en lugar de una estadística suficiente $T(X_1,\cdots,X_n)$ .

  4. La mayoría de los libros de texto formulan la idea de estadística suficiente utilizando la probabilidad condicional. Por ejemplo, algo así,

Supongamos que $X_1,\cdots,X_n \sim f(x\mid \theta). $ Una estadística es suficiente si $$\mathbb{P}(X_1,\cdots,X_n \mid T(X_1,\cdots,X_n))$$ no depende de $\theta$ .

Por pura curiosidad, ¿es posible definir la SS utilizando, por ejemplo, la teoría de la información o la entropía? No soy un experto en este tema, pero " $T$ contiene toda la información de la muestra que necesitamos para determinar $\theta$ ", o " $T$ contiene tanta información como la muestra para inferir $\theta$ "me hace pensar en la teoría de la información.

2voto

Pat Puntos 1698
  1. La eficiencia es un factor importante, y siempre lo será, independientemente de la velocidad de los ordenadores. Digamos que quieres ajustar una distribución normal a unos datos 1D $\{ X_1, \ldots X_N\}$ pero sabemos que en el futuro podemos querer añadir más datos a este conjunto de datos y actualizar nuestro ajuste. Una forma de hacerlo es almacenar todos los datos y volver a calcularlos cada vez que lleguen nuevos datos, pero eso significa que nuestro almacenamiento y el tiempo necesario para calcular los parámetros aumentarán $O(N)$ . Si en lugar de eso sólo almacenamos $\sum_{i=1}^N X_i$ , $\sum_{i=1}^N X^2_i$ y $N$ Entonces tenemos todos los datos que necesitamos para actualizar nuestras estimaciones de parámetros más tarde cuando lleguen nuevos datos, y nuestro almacenamiento y tiempo de ejecución sólo crecen $O(1)$ . Dependiendo de la aplicación y del tamaño de los conjuntos de datos, puede ser una cuestión decisiva.
  2. No estoy muy familiarizado con esto, pero buscando en Wikipedia parece que "...según el teorema de Pitman-Koopman-Darmois, entre las familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, sólo en las familias exponenciales existe un estadístico suficiente cuya dimensión permanece acotada al aumentar el tamaño de la muestra" . Mi intuición siempre ha sido que la existencia de estadísticas suficientes en un problema suele ser un caso bastante especial e indica una distribución "agradable". En cambio, la mayoría de las veces trabajo con conjuntos de datos completos.
  3. Depende del problema. Generalmente, una vez que has encontrado la factorización $f_\theta(x) = h(x)g_\theta(T(x))$ , para estimar $\theta$ se puede tirar el $h(x)$ y sólo utilizar el $g_\theta(T(x))$ para hacer lo que quieras - así que, si estás haciendo la máxima probabilidad, sólo tienes que diferenciar y poner a cero $g_\theta(T(x))$ en lugar de $f_\theta(x)$ , lo que normalmente debería facilitar el problema. Creo que ese es mi principal uso de las estadísticas suficientes en el día a día: no como una respuesta a un problema en sí mismo, sino como una forma de simplificar y acelerar los pasos como parte de otra solución.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X