Desconcierto ante la definición de estadística suficiente

Question

Desconcierto ante la definición de estadística suficiente

Preguntado el 22 de Agosto, 2018: Cuando se hizo la pregunta
238 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy aprendiendo sobre estadística suficiente de Mood, Graybill y Boes Introducción a la teoría de la estadística. Me confunde un poco la definición que da el libro de estadístico suficiente para variables aleatorias continuas.

Según el libro, para una muestra aleatoria $X_1, X_2, X_3, ..., X_n$ de una distribución $f( ;\theta)$ una estadística $T = g(X_1, X_2, ..., X_n)$ es suficiente si la distribución condicional de $(X_1, X_2, ..., X_n)$ dado $\{ {T = t} \}$ no depende de theta. Esto es fácil de entender si $X$ es discreta.

Sin embargo, si $X$ es continua, el libro ofrece dos interpretaciones alternativas:

$T$ es una estadística suficiente si $P(X_1 \leq x_1, X_2 \leq x_2, ..., X_n \leq x_n | t-h \leq T \leq t+h)$ no depende de $\theta$
La segunda interpretación me parece un poco rara: $T$ es suficiente si podemos transformar biyectivamente $X_1, X_2, X_3, ..., X_n$ a $T, Y_2, Y_3, Y_4, ..., Y_n$ y demostrar que la distribución condicional de $Y_2, Y_3, Y_3, ..., Y_n$ dado $T$ no depende de $\theta$ .

Mi pregunta es, ¿no tenemos ya una definición para la distribución condicional de $U$ dado $V$ para variables aleatorias continuas? Lo es:

$\frac{f_{U,T}(u,v)}{f_{V}(v)}$

Entonces, ¿por qué no definir simplemente la estadística suficiente para distribuciones continuas como una estadística tal que $\frac{f_{\textbf{X},T}(\textbf{x},t)}{f_{T}(t)}$ no depende de $\theta$ ? He visto que en algunos apuntes se definen así los estadísticos suficientes para variables continuas.

Según el teorema 6.1.1 de Casella y Berger Creo que podemos definir $T$ sea suficiente si $\frac{f_{\textbf{X},T}(\textbf{x},t)}{f_{T}(t)}$ no depende de $\theta$ .

Preguntado el 22 de Agosto, 2018 por CheeseConQueso

1 votos

¿Qué ocurre cuando $(\mathbf X,T)$ no tiene una densidad conjunta ( por no mencionar que a veces puede ser difícil de encontrar) ?

Comentado el 22 de Agosto, 2018 por user119261

0 votos

Si todos son continuos, ¿no debería la densidad conjunta de $(\textbf{X}, T)$ ¿existen siempre?

Comentado el 22 de Agosto, 2018 por CheeseConQueso

0 votos

¿Es la extraña definición de Mood, Graybill y Boes sólo para eludir la dificultad de tratar con la densidad conjunta de $(\textbf{X}, T)$ ?

Comentado el 22 de Agosto, 2018 por CheeseConQueso

Mostrar 2 comentarios más

Answer 1

2 Respuestas

Answer 2

8voto

user164061 Puntos 281

Todas esas interpretaciones parecen ser una variación de expresar lo mismo:

La independencia de la distribución de la muestra $X$ en un parámetro verdadero $\theta$ y la estadística $T$ .

Lo que significa que la muestra $X$ condicionado a $T$ no aporta más información (aparte de la información de la estadística $T$ ) sobre el parámetro $\theta$ porque en términos de distribución de frecuencia/probabilidad de las posibles muestras observadas $X$ no hay ninguna diferencia que señale algo sobre $\theta$ )

Estadísticas suficientes

Quizá te interese leer dos obras de R.A. Fisher que me parecen muy buenas para fines didácticos (y también para conocer a los clásicos)

Examen matemático de los métodos para determinar la precisión de una observación mediante el error medio y el error cuadrático medio. (1920)
- Aquí Fisher compara diferentes estadísticas para estimar el $\sigma$ de la distribución normal.
- Expresa la varianza relativa del muestreo (error típico relativo) para distintas formas de desviación. Es decir, el error medio $\sigma_1 = \sqrt{\frac{2}{\pi}}\sum (|x-\bar{x}|)$ el error cuadrático medio, $\sigma_2 = \sum (x-\bar{x})^2$ y cualquier variante de sumas de error que emplee cualquier otra potencia $\sigma_p$ .
- Averigua que el error cuadrático medio tiene el error estándar relativo más bajo, y explora más a fondo las propiedades especiales del error cuadrático medio.
- A continuación, expresa la distribución/frecuencia de una estadística en función de la otra y observa que el error cuadrático medio, $\sigma_2$ es especial porque la distribución de $\sigma_1$ u otros $\sigma_p$ condicionado a $\sigma_2$ no depende de $\sigma$ . Eso significa que ninguna otra estadística $\sigma_p$ podrá decir algo más sobre el parámetro $\sigma$ que lo que $\sigma_2$ cuenta $\sigma$ .
- Menciona la iso-superficie del estadístico correspondiente a la iso-superficie de la función de verosimilitud y deriva para el estadístico del error medio, $\sigma_1$ (que no son n-esferas sino politopos multidimensionales) que esto coincide con la distribución de Laplace (un poco análoga a como Gauss derivó la distribución normal basada en el estadístico cuadrático medio)
Teoría de la estimación estadística (1925)

Aquí Fisher explica varios conceptos como coherencia y eficacia . En relación con el concepto de suficiencia explica
- el teorema de factorización
- y el hecho de que un estadístico suficiente, si existe, será una solución de las ecuaciones para obtener la máxima verosimilitud.
La explicación de suficiencia queda especialmente claro utilizando como ejemplo la distribución de Poisson. La función de distribución de probabilidad para una sola observación $x$ es $f(x) = e^{-\lambda} \frac{\lambda^x}{x!}$ y la distribución conjunta de $n$ observaciones independientes es $\lbrace x_1, x_2,...,x_n \rbrace$ : $f(x_1,...,x_n) = e^{-n\lambda} \frac{\left( \lambda \right)^{n\bar{x}}}{\left( n\bar{x} \right)!}$ que puede escribirse como $f(x_1,...,x_n) = e^{-n\lambda} \frac{\lambda^{n\bar{x}}}{x_1!x_2!...x_n!}$ y factorizado en $f(\bar{x}) \cdot f(x_1,...,x_n |\bar{x}) = e^{-n\lambda} \frac{(n\lambda)^{n\bar{x}}}{\left( n\bar{x} \right)!} \cdot \frac{\left( n\bar{x} \right) !}{n^{n\bar{x}}x_1!x_2!...x_n!}$ que es la multiplicación de (1) la función de distribución de la estadística $f(\bar{x})$ y (2) la función de distribución de la partición de $f(\bar{x})$ en $x_1,...,x_n$ que intuitivamente se podría ver como una densidad de distribución condicional $f(x_1,...,x_n |\bar{x})$ . Obsérvese que este último término no depende de $\lambda$ .

En relación con sus dos interpretaciones

Si el PDF $f(x_1,...,x_n |\bar{x})$ es independiente de $\theta$ entonces también debería serlo la probabilidad integrada (la FDA): $\begin{multline}P(a_1<X_1<b_1,...,a_n<X_n<b_n |\bar{x}) = \\ = \int_{x_1 = a_1}^{x_1 = b_1} ... \int_{x_n =a_n}^{x_n = b_n} f(x_1,...,x_n |\bar{x}) d x_1 d x_2 ... d x_n\end{multline}$
Sugiere utilizar simplemente $\frac{f_{X,T}(x,t)}{f_T(t)}$ pero a veces no siempre es tan fácil expresarse así. La factorización ya funciona si se puede dividir la probabilidad en: $f(x_1,...,x_n|\theta) = h(x_1,...,x_n) \cdot g(T(x)|\theta)$ donde sólo el factor $g(T(x)|\theta)$ depende únicamente del parámetro o parámetros $\theta$ y la estadística $T(x)$ . Ahora tenga en cuenta que en realidad no importa cómo se expresa $h(x)$ también se puede expresar esta función en términos de otras coordenadas $y$ relacionados con $x$ siempre que la parte sea independiente de $\theta$ .

Por ejemplo, la factorización con la distribución de Poisson podría haberse terminado escribiendo: $f(x_1,...,x_n) = \underbrace{e^{-n\lambda} \lambda^{n\bar{x}} \vphantom{\frac{1}{x_1!x_2!...x_n!}}}_{g(T(x)|\theta)} \cdot \underbrace{\frac{1}{x_1!x_2!...x_n!}}_{h_x(x_1,...,x_n)}$ donde el primer término sólo depende de $\bar{x}$ y $\lambda$ y el segundo término no depende de $\lambda$ . Así que no hay necesidad de buscar más $\frac{f_{X,T}(x,t)}{f_T(t)}$

En este segundo ejemplo también hay una caída de una variable. No tiene $Y_1...Y_n$ pero uno menos $Y_2..Y_n$ . Un ejemplo en el que esto podría ser útil es cuando se utiliza $T = \max \lbrace X_i \rbrace$ como estadístico para una muestra de la distribución uniforme, $X_i \sim U(0,\theta)$ . Si denota $Y_i$ el i-ésimo mayor de los $X_i$ entonces es muy fácil expresar la distribución de probabilidad condicional $P(Y_i \vert T)$ . Pero expresar $P(X_i \vert T)$ es un poco más difícil (véase Distribución condicional de $(X_1,\cdots,X_n)\mid X_{(n)}$ donde $X_i$ son i.i.d $\mathcal U(0,\theta)$ variables ).

Lo que dice tu libro de texto

Tenga en cuenta que su libro de texto ya explica por qué está dando estas interpretaciones alternativas.

En el caso de un muestreo a partir de una función de densidad de probabilidad, la función significado del término "la distribución condicional de $X_1, ... , X_n$ dado $S=s$ "que aparece en la definición 15 puede no ser evidente, ya que entonces $P[S=s]=0$

y las interpretaciones alternativas no se refieren tanto al "concepto de suficiencia" como al "concepto de probabilidad". densidad función que no expresa directamente las probabilidades".

La expresión en términos de la función de densidad acumulativa (que hace se refieren a una probabilidad) es una forma de eludirlo.
La expresión en términos de la transformación es una forma particular de expresar el teorema de partición. Obsérvese que $f(X_1,...,X_n)$ es en función de $\theta$ pero $f(Y_2,...,Y_n)$ donde el $T$ término está separado, es independiente de $\theta$ (por ejemplo, el ejemplo del libro muestra que para variables de distribución normal, con media desconocida $\mu$ y varianza conocida 1, la distribución de $Y_i = X_i-X_1$ es según $Y_i \sim N(0,2)$ independiente del $\mu$ ).
Una variante de la segunda interpretación (que se refería al problema que $f(X_1,...,X_n)$ no es independiente de $\theta$ ) podría ser demostrar que $f(X_1,...,X_n)$ es independiente de $\theta$ cuando restringido a la iso-superficie donde la estadística suficiente es constante.

Esta es más o menos la interpretación geométrica que tenía Fisher. No estoy seguro de por qué utilizan la interpretación más confusa. Posiblemente uno no vea esta interpretación, una especie de función de densidad de probabilidad condicional que es análoga a una probabilidad condicional, como teóricamente limpia.

Sobre la expresión $\frac{f_{X,T}(\mathbf{x},t)}{f_T(t)}$

Tenga en cuenta que $f_{X,T}(\mathbf{x},t)$ no es fácil de expresar ya que, $T$ depende de $\mathbf{X}$ y no todas las combinaciones de $\mathbf{x}$ y $t$ es posible (por lo que se trata de alguna función que sólo es distinta de cero en alguna superficie del espacio $\mathbf{X},T$ donde $t$ y $\mathbf{x}$ están correctamente relacionados).

Si se elimina una de las variables del vector $\mathbf{x}$ entonces hace se vuelven más adecuados y esto está muy cerca de la conversión a parámetros $y$ donde también tienes un número menos.

Sin embargo, esta división no es demasiado extraña. La estadística suficiente es aquella para la que la función de distribución $f_{X,T}(\mathbf{x},t)$ es constante (para diferentes $\mathbf{x}$ la densidad de probabilidad $f_\mathbf{X}(\mathbf{x})$ es la misma, constante, si $T$ es el mismo), por lo que deberías poder dividirlo (pero lo mismo funciona con cualquier otra función $g(t,\theta)$ no tiene que ser necesariamente la distribución de probabilidad $f_T(t,\theta)$ .

Respondido el 22 de Agosto, 2018 por user164061 (281 Puntos )

Answer 3

2voto

alexs77 Puntos 36

Es una condición algo más fuerte afirmar que la probabilidad conjunta distribución (también conocida como $F_X = P(X_1 < x_1, \ldots, X_n < x_n)$ ) no depende de $\theta$ . Por ejemplo, podría tener una normal modificada ( $\mu$ ,1) cuya función de densidad de probabilidad es $f_x = \phi(x)$ si $x \ne \mu$ y $1,000$ cuando $X=\mu$ . Esa función delta de medida 0 no desaparece condicionando a $\bar{X}$ . Se trata de un caso en el que $\bar{X}$ es una estadística suficiente no porque $f_{X|{\bar{X}}}$ no depende de $\mu$ sino porque $F_{X|\bar{X}}$ no depende de $\mu$ .

Respondido el 22 de Agosto, 2018 por alexs77 (36 Puntos )

1 votos

Me temo que no lo entiendo, por dos razones. La primera es que $F_X$ manifiestamente hace dependen de $\theta.$ La segunda es que ninguna distribución Normal (excepto una degenerada) tiene una función de masa de probabilidad, así que no tengo una idea clara de qué tipo de modificación estás intentando describir.

Comentado el 22 de Agosto, 2018 por jldugger

0 votos

@whuber buena llamada sobre el término PMF ser el término equivocado utilizado aquí. Lo he reformulado en términos de densidad.

Comentado el 22 de Agosto, 2018 por alexs77

0 votos

Sigo perdido porque no veo el sentido de una "función delta de medida 0", que parece una combinación de dos ideas diferentes. ¿Intentas señalar la inutilidad de intentar definir una densidad condicional como un cociente de densidades?

Comentado el 22 de Agosto, 2018 por jldugger

Mostrar 6 comentarios más

Desconcierto ante la definición de estadística suficiente

Respuestas

Estadísticas suficientes

En relación con sus dos interpretaciones

Lo que dice tu libro de texto

Sobre la expresión $\frac{f_{X,T}(\mathbf{x},t)}{f_T(t)}$

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Desconcierto ante la definición de estadística suficiente

Respuestas

Estadísticas suficientes

En relación con sus dos interpretaciones

Lo que dice tu libro de texto

Sobre la expresión \frac{f_{X,T}(\mathbf{x},t)}{f_T(t)}\frac{f_{X,T}(\mathbf{x},t)}{f_T(t)}

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by:

Sobre la expresión $\frac{f_{X,T}(\mathbf{x},t)}{f_T(t)}$