Todas esas interpretaciones parecen ser una variación de expresar lo mismo:
La independencia de la distribución de la muestra $X$ en un parámetro verdadero $\theta$ y la estadística $T$ .
Lo que significa que la muestra $X$ condicionado a $T$ no aporta más información (aparte de la información de la estadística $T$ ) sobre el parámetro $\theta$ porque en términos de distribución de frecuencia/probabilidad de las posibles muestras observadas $X$ no hay ninguna diferencia que señale algo sobre $\theta$ )
Estadísticas suficientes
Quizá te interese leer dos obras de R.A. Fisher que me parecen muy buenas para fines didácticos (y también para conocer a los clásicos)
-
Examen matemático de los métodos para determinar la precisión de una observación mediante el error medio y el error cuadrático medio. (1920)
- Aquí Fisher compara diferentes estadísticas para estimar el $\sigma$ de la distribución normal.
- Expresa la varianza relativa del muestreo (error típico relativo) para distintas formas de desviación. Es decir, el error medio $\sigma_1 = \sqrt{\frac{2}{\pi}}\sum (|x-\bar{x}|)$ el error cuadrático medio, $\sigma_2 = \sum (x-\bar{x})^2$ y cualquier variante de sumas de error que emplee cualquier otra potencia $\sigma_p$ .
- Averigua que el error cuadrático medio tiene el error estándar relativo más bajo, y explora más a fondo las propiedades especiales del error cuadrático medio.
- A continuación, expresa la distribución/frecuencia de una estadística en función de la otra y observa que el error cuadrático medio, $\sigma_2$ es especial porque la distribución de $\sigma_1$ u otros $\sigma_p$ condicionado a $\sigma_2$ no depende de $\sigma$ . Eso significa que ninguna otra estadística $\sigma_p$ podrá decir algo más sobre el parámetro $\sigma$ que lo que $\sigma_2$ cuenta $\sigma$ .
- Menciona la iso-superficie del estadístico correspondiente a la iso-superficie de la función de verosimilitud y deriva para el estadístico del error medio, $\sigma_1$ (que no son n-esferas sino politopos multidimensionales) que esto coincide con la distribución de Laplace (un poco análoga a como Gauss derivó la distribución normal basada en el estadístico cuadrático medio)
-
Teoría de la estimación estadística (1925)
Aquí Fisher explica varios conceptos como coherencia y eficacia . En relación con el concepto de suficiencia explica
- el teorema de factorización
- y el hecho de que un estadístico suficiente, si existe, será una solución de las ecuaciones para obtener la máxima verosimilitud.
La explicación de suficiencia queda especialmente claro utilizando como ejemplo la distribución de Poisson. La función de distribución de probabilidad para una sola observación $x$ es $$f(x) = e^{-\lambda} \frac{\lambda^x}{x!}$$ y la distribución conjunta de $n$ observaciones independientes es $\lbrace x_1, x_2,...,x_n \rbrace$ : $$f(x_1,...,x_n) = e^{-n\lambda} \frac{\left( \lambda \right)^{n\bar{x}}}{\left( n\bar{x} \right)!}$$ que puede escribirse como $$f(x_1,...,x_n) = e^{-n\lambda} \frac{\lambda^{n\bar{x}}}{x_1!x_2!...x_n!} $$ y factorizado en $$f(\bar{x}) \cdot f(x_1,...,x_n |\bar{x}) = e^{-n\lambda} \frac{(n\lambda)^{n\bar{x}}}{\left( n\bar{x} \right)!} \cdot \frac{\left( n\bar{x} \right) !}{n^{n\bar{x}}x_1!x_2!...x_n!} $$ que es la multiplicación de (1) la función de distribución de la estadística $f(\bar{x})$ y (2) la función de distribución de la partición de $f(\bar{x})$ en $x_1,...,x_n$ que intuitivamente se podría ver como una densidad de distribución condicional $f(x_1,...,x_n |\bar{x})$ . Obsérvese que este último término no depende de $\lambda$ .
En relación con sus dos interpretaciones
-
Si el PDF $f(x_1,...,x_n |\bar{x})$ es independiente de $\theta$ entonces también debería serlo la probabilidad integrada (la FDA): $$\begin{multline}P(a_1<X_1<b_1,...,a_n<X_n<b_n |\bar{x}) = \\ = \int_{x_1 = a_1}^{x_1 = b_1} ... \int_{x_n =a_n}^{x_n = b_n} f(x_1,...,x_n |\bar{x}) d x_1 d x_2 ... d x_n\end{multline}$$
-
Sugiere utilizar simplemente $\frac{f_{X,T}(x,t)}{f_T(t)}$ pero a veces no siempre es tan fácil expresarse así. La factorización ya funciona si se puede dividir la probabilidad en: $$f(x_1,...,x_n|\theta) = h(x_1,...,x_n) \cdot g(T(x)|\theta) $$ donde sólo el factor $g(T(x)|\theta)$ depende únicamente del parámetro o parámetros $\theta$ y la estadística $T(x)$ . Ahora tenga en cuenta que en realidad no importa cómo se expresa $h(x)$ también se puede expresar esta función en términos de otras coordenadas $y$ relacionados con $x$ siempre que la parte sea independiente de $\theta$ .
Por ejemplo, la factorización con la distribución de Poisson podría haberse terminado escribiendo: $$f(x_1,...,x_n) = \underbrace{e^{-n\lambda} \lambda^{n\bar{x}} \vphantom{\frac{1}{x_1!x_2!...x_n!}}}_{g(T(x)|\theta)} \cdot \underbrace{\frac{1}{x_1!x_2!...x_n!}}_{h_x(x_1,...,x_n)}$$ donde el primer término sólo depende de $\bar{x}$ y $\lambda$ y el segundo término no depende de $\lambda$ . Así que no hay necesidad de buscar más $\frac{f_{X,T}(x,t)}{f_T(t)}$
En este segundo ejemplo también hay una caída de una variable. No tiene $Y_1...Y_n$ pero uno menos $Y_2..Y_n$ . Un ejemplo en el que esto podría ser útil es cuando se utiliza $T = \max \lbrace X_i \rbrace$ como estadístico para una muestra de la distribución uniforme, $X_i \sim U(0,\theta)$ . Si denota $Y_i$ el i-ésimo mayor de los $X_i$ entonces es muy fácil expresar la distribución de probabilidad condicional $P(Y_i \vert T)$ . Pero expresar $P(X_i \vert T)$ es un poco más difícil (véase Distribución condicional de $(X_1,\cdots,X_n)\mid X_{(n)}$ donde $X_i$ son i.i.d $\mathcal U(0,\theta)$ variables ).
Lo que dice tu libro de texto
Tenga en cuenta que su libro de texto ya explica por qué está dando estas interpretaciones alternativas.
En el caso de un muestreo a partir de una función de densidad de probabilidad, la función significado del término "la distribución condicional de $X_1, ... , X_n$ dado $S=s $ "que aparece en la definición 15 puede no ser evidente, ya que entonces $P[S=s]=0$
y las interpretaciones alternativas no se refieren tanto al "concepto de suficiencia" como al "concepto de probabilidad". densidad función que no expresa directamente las probabilidades".
-
La expresión en términos de la función de densidad acumulativa (que hace se refieren a una probabilidad) es una forma de eludirlo.
-
La expresión en términos de la transformación es una forma particular de expresar el teorema de partición. Obsérvese que $f(X_1,...,X_n)$ es en función de $\theta$ pero $f(Y_2,...,Y_n)$ donde el $T$ término está separado, es independiente de $\theta$ (por ejemplo, el ejemplo del libro muestra que para variables de distribución normal, con media desconocida $\mu$ y varianza conocida 1, la distribución de $Y_i = X_i-X_1$ es según $Y_i \sim N(0,2)$ independiente del $\mu$ ).
-
Una variante de la segunda interpretación (que se refería al problema que $f(X_1,...,X_n)$ no es independiente de $\theta$ ) podría ser demostrar que $f(X_1,...,X_n)$ es independiente de $\theta$ cuando restringido a la iso-superficie donde la estadística suficiente es constante.
Esta es más o menos la interpretación geométrica que tenía Fisher. No estoy seguro de por qué utilizan la interpretación más confusa. Posiblemente uno no vea esta interpretación, una especie de función de densidad de probabilidad condicional que es análoga a una probabilidad condicional, como teóricamente limpia.
Sobre la expresión $\frac{f_{X,T}(\mathbf{x},t)}{f_T(t)}$
Tenga en cuenta que $f_{X,T}(\mathbf{x},t)$ no es fácil de expresar ya que, $T$ depende de $\mathbf{X}$ y no todas las combinaciones de $\mathbf{x}$ y $t$ es posible (por lo que se trata de alguna función que sólo es distinta de cero en alguna superficie del espacio $\mathbf{X},T$ donde $t$ y $\mathbf{x}$ están correctamente relacionados).
Si se elimina una de las variables del vector $\mathbf{x}$ entonces hace se vuelven más adecuados y esto está muy cerca de la conversión a parámetros $y$ donde también tienes un número menos.
Sin embargo, esta división no es demasiado extraña. La estadística suficiente es aquella para la que la función de distribución $f_{X,T}(\mathbf{x},t)$ es constante (para diferentes $\mathbf{x}$ la densidad de probabilidad $f_\mathbf{X}(\mathbf{x})$ es la misma, constante, si $T$ es el mismo), por lo que deberías poder dividirlo (pero lo mismo funciona con cualquier otra función $g(t,\theta)$ no tiene que ser necesariamente la distribución de probabilidad $f_T(t,\theta)$ .
1 votos
¿Qué ocurre cuando $(\mathbf X,T)$ no tiene una densidad conjunta ( por no mencionar que a veces puede ser difícil de encontrar) ?
0 votos
Si todos son continuos, ¿no debería la densidad conjunta de $(\textbf{X}, T)$ ¿existen siempre?
0 votos
¿Es la extraña definición de Mood, Graybill y Boes sólo para eludir la dificultad de tratar con la densidad conjunta de $(\textbf{X}, T)$ ?
0 votos
No sé, pero la definición no me parece tan "rara". La primera interpretación se basa en los primeros principios, mientras que la segunda se basa en el hecho de que si $T$ es suficiente para $\theta$ entonces la distribución condicional $T'\mid T$ también es independiente de $\theta$ para cualquier otra estadística $T'$ .
0 votos
Es un poco raro porque el libro ya ha definido densidades condicionales para variables continuas. En mi opinión, al menos deberían mencionarlo.