El teorema al que te refieres (la parte de la reducción habitual "reducción habitual de los grados de libertad debido a los parámetros estimados") ha sido defendido principalmente por R.A. Fisher. En "On the interpretation of Chi Square from Contingency Tables, and the Calculation of P" (1922) defendió el uso de la $(R-1) * (C-1)$ y en "The goodness of fit of regression formulae" (1922) sostiene que hay que reducir los grados de libertad por el número de parámetros utilizados en la regresión para obtener los valores esperados de los datos. (Es interesante observar que la gente utilizó mal la prueba de chi-cuadrado, con grados de libertad erróneos, durante más de veinte años desde su introducción en 1900)
Su caso es del segundo tipo (regresión) y no del primero (tabla de contingencia), aunque los dos están relacionados en el sentido de que son restricciones lineales sobre los parámetros.
Porque se modelan los valores esperados, a partir de los valores observados, y se hace con un modelo que tiene dos la reducción "habitual" de los grados de libertad es de dos más uno (uno más porque los O_i tienen que sumar un total, lo cual es otra restricción lineal, y se termina efectivamente con una reducción de dos, en lugar de tres, debido a la "ineficacia" de los valores esperados modelados).
La prueba de chi-cuadrado utiliza un $\chi^2$ como medida de distancia para expresar lo cerca que está un resultado de los datos esperados. En las numerosas versiones de las pruebas de chi-cuadrado, la distribución de esta "distancia" está relacionada con la suma de las desviaciones en las variables con distribución normal (lo cual es cierto sólo en el límite y es una aproximación si se trata de datos con distribución no normal).
Para la distribución normal multivariante la función de densidad está relacionada con la $\chi^2$ por
$f(x_1,...,x_k) = \frac{e^{- \frac{1}{2}\chi^2} }{\sqrt{(2\pi)^k \vert \mathbf{\Sigma}\vert}}$
con $\vert \mathbf{\Sigma}\vert$ el determinante de la matriz de covarianza de $\mathbf{x}$
y $\chi^2 = (\mathbf{x}-\mathbf{\mu})^T \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})$ es la distancia mahalanobis que se reduce a la distancia euclidiana si $\mathbf{\Sigma}=\mathbf{I}$ .
En su artículo de 1900 Pearson argumentó que el $\chi^2$ -son esferoides y que puede transformar a coordenadas esféricas para integrar un valor como $P(\chi^2 > a)$ . Que se convierte en una integral única.
Es esta representación geométrica, $\chi^2$ como una distancia y también un término en la función de densidad, que puede ayudar a entender la reducción de grados de libertad cuando hay restricciones lineales.
Primero el caso de una tabla de contingencia 2x2 . Debería notar que los cuatro valores $\frac{O_i-E_i}{E_i}$ no son cuatro variables independientes de distribución normal. En cambio, están relacionadas entre sí y se reducen a una sola variable.
Utilicemos la tabla
$O_{ij} = \begin{array}{cc} o_{11} & o_{12} \\ o_{21} & o_{22} \end{array}$
entonces si los valores esperados
$E_{ij} = \begin{array}{cc} e_{11} & e_{12} \\ e_{21} & e_{22} \end{array}$
donde se fija entonces $\sum \frac{o_{ij}-e_{ij}}{e_{ij}}$ se distribuiría como una distribución chi-cuadrado con cuatro grados de libertad, pero a menudo estimamos el $e_{ij}$ basado en el $o_{ij}$ y la variación no es como cuatro variables independientes. En su lugar, obtenemos que todas las diferencias entre $o$ y $e$ son los mismos
$ \begin{array}\\&(o_{11}-e_{11}) &=\\ &(o_{22}-e_{22}) &=\\ -&(o_{21}-e_{21}) &=\\ -&(o_{12}-e_{12}) &= o_{11} - \frac{(o_{11}+o_{12})(o_{11}+o_{21})}{(o_{11}+o_{12}+o_{21}+o_{22})} \end{array}$
y son efectivamente una sola variable en lugar de cuatro. Geométricamente se puede ver esto como el $\chi^2$ valor no se integra en una esfera de cuatro dimensiones, sino en una sola línea.
Tenga en cuenta que esta prueba de tabla de contingencia es no el caso de la tabla de contingencia en la prueba de Hosmer-Lemeshow (¡utiliza una hipótesis nula diferente!). Véase también la sección 2.1 "el caso cuando $\beta_0$ y $\underline\beta$ son conocidos" en el artículo de Hosmer y Lemshow. En su caso se obtienen 2g-1 grados de libertad y no g-1 grados de libertad como en la regla (R-1)(C-1). Esta regla (R-1)(C-1) es específicamente el caso de la hipótesis nula de que las variables de fila y columna son independientes (lo que crea restricciones R+C-1 en la $o_i-e_i$ valores). La prueba de Hosmer-Lemeshow se refiere a la hipótesis de que las celdas se rellenan según las probabilidades de un modelo de regresión logística basado en $four$ parámetros en el caso de la hipótesis de distribución A y $p+1$ parámetros en el caso de la hipótesis de distribución B.
En segundo lugar, el caso de una regresión. Una regresión hace algo similar a la diferencia $o-e$ como la tabla de contingencia y reduce la dimensionalidad de la variación. Hay una buena representación geométrica para esto como el valor $y_i$ puede representarse como la suma de un término del modelo $\beta x_i$ y un término residual (no de error) $\epsilon_i$ . El término del modelo y el término residual representan cada uno un espacio dimensional perpendicular entre sí. Esto significa que los términos residuales $\epsilon_i$ ¡no puede tomar ningún valor posible! Es decir, se reducen por la parte que se proyecta sobre el modelo, y más concretamente 1 dimensión para cada parámetro del modelo.
Tal vez las siguientes imágenes puedan ayudar un poco
A continuación se muestran 400 veces tres variables (no correlacionadas) de las distribuciones binomiales $B(n=60,p={1/6,2/6,3/6})$ . Se refieren a variables con distribución normal $N(\mu=n*p,\sigma^2=n*p*(1-p))$ . En la misma imagen dibujamos la iso-superficie para $\chi^2={1,2,6}$ . Integrando sobre este espacio utilizando las coordenadas esféricas de manera que sólo necesitamos una única integración (porque el cambio de ángulo no cambia la densidad), sobre $\chi$ resultados en $\int_0^a e^{-\frac{1}{2} \chi^2 }\chi^{d-1} d\chi$ en el que este $\chi^{d-1}$ parte representa el área de la esfera d-dimensional. Si limitáramos las variables $\chi$ de alguna manera que la integración no sería sobre una esfera d-dimensional sino algo de menor dimensión.
La imagen siguiente puede servir para hacerse una idea de la reducción dimensional de los términos residuales. Explica el método de ajuste por mínimos cuadrados en términos geométricos.
En azul tienes las medidas. En rojo tienes lo que permite el modelo. A menudo, la medición no es exactamente igual al modelo y tiene alguna desviación. Puedes considerar esto, geométricamente, como la distancia del punto medido a la superficie roja.
Las flechas rojas $mu_1$ y $mu_2$ tienen valores $(1,1,1)$ y $(0,1,2)$ y podría relacionarse con algún modelo lineal como x = a + b * z + error o
$\begin{bmatrix}x_{1}\\x_{2}\\x_{3}\end{bmatrix} = a \begin{bmatrix}1\\1\\1\end{bmatrix} + b \begin{bmatrix}0\\1\\2\end{bmatrix} + \begin{bmatrix}\epsilon_1\\\epsilon_2\\\epsilon_3\end{bmatrix} $
por lo que el tramo de esos dos vectores $(1,1,1)$ y $(0,1,2)$ (el plano rojo) son los valores de $x$ que son posibles en el modelo de regresión y $\epsilon$ es un vector que es la diferencia entre el valor observado y el valor de regresión/modelado. En el método de mínimos cuadrados, este vector es perpendicular (la distancia mínima es la suma mínima de cuadrados) a la superficie roja (y el valor modelado es la proyección del valor observado sobre la superficie roja).
Así, esta diferencia entre lo observado y lo esperado (modelado) es una suma de vectores perpendiculares al vector modelo (y este espacio tiene la dimensión del espacio total menos el número de vectores modelo).
En nuestro sencillo caso de ejemplo La dimensión total es 3. El modelo tiene 2 dimensiones. Y el error tiene una dimensión 1 (así que no importa cuál de esos puntos azules tome, las flechas verdes muestran un solo ejemplo, los términos de error tienen siempre la misma proporción, siguen un solo vector).
Espero que esta explicación sea de ayuda. No es en absoluto una prueba rigurosa y hay algunos trucos algebraicos especiales que hay que resolver en estas representaciones geométricas. Pero de todos modos me gustan estas dos representaciones geométricas. La del truco de Pearson para integrar el $\chi^2$ utilizando las coordenadas esféricas, y la otra para ver el método de la suma de mínimos cuadrados como una proyección sobre un plano (o un tramo mayor).
Siempre me sorprende cómo acabamos con $\frac{o-e}{e}$ Esto, desde mi punto de vista, no es trivial ya que la aproximación normal de una binomial no es una devisión por $e$ sino por $np(1-p)$ y en el caso de las tablas de contingencia se puede resolver fácilmente, pero en el caso de la regresión u otras restricciones lineales no resulta tan fácil, mientras que la literatura suele ser muy fácil al argumentar que "funciona igual para otras restricciones lineales". (Un ejemplo interesante del problema. Si se realiza la siguiente prueba varias veces 'lanzar 2 veces 10 una moneda y sólo registrar los casos en los que la suma es 10' entonces no se obtiene la típica distribución chi-cuadrado para esta restricción lineal "simple")