Esta es una historia sobre los grados de libertad y los parámetros estadísticos y por qué es bueno que ambos tengan una conexión directa y sencilla.
Históricamente, el " $-1$ "aparecieron en los estudios de Euler sobre la función Beta. En 1763, Euler ya utilizaba esta parametrización, al igual que Adrien-Marie Legendre: su uso estableció la convención matemática posterior. Este trabajo es anterior a todas las aplicaciones estadísticas conocidas.
La teoría matemática moderna proporciona amplios indicios, a través de la riqueza de las aplicaciones en el análisis, la teoría de números y la geometría, de que la " $-1$ " tienen realmente algún significado. He esbozado algunas de esas razones en los comentarios a la pregunta.
Es más interesante saber cuál debe ser la parametrización estadística "correcta". Eso no está tan claro y no tiene por qué ser la misma que la convención matemática. Existe una enorme red de familias de distribuciones de probabilidad comúnmente utilizadas, bien conocidas e interrelacionadas. Así, las convenciones utilizadas para nombrar (es decir, parametrizar) una familia suelen implicar convenciones relacionadas para nombrar familias relacionadas. Si se cambia una parametrización, se querrán cambiar todas. Por lo tanto, podemos buscar pistas en estas relaciones.
Pocas personas estarían en desacuerdo con que las familias de distribución más importantes derivan de la familia Normal. Recordemos que una variable aleatoria $X$ se dice que está "normalmente distribuida" cuando $(X-\mu)/\sigma$ tiene una densidad de probabilidad $f(x)$ proporcional a $\exp(-x^2/2)$ . Cuando $\sigma=1$ y $\mu=0$ , $X$ se dice que tiene un estándar distribución normal.
Muchos conjuntos de datos $x_1, x_2, \ldots, x_n$ se estudian utilizando estadísticas relativamente sencillas que implican combinaciones racionales de los datos y potencias bajas (normalmente cuadrados). Cuando esos datos se modelan como muestras aleatorias de una distribución Normal -de modo que cada $x_i$ se ve como una realización de una variable Normal $X_i$ , todos los $X_i$ comparten una distribución común y son independientes: las distribuciones de esos estadísticos están determinadas por esa distribución Normal. Las que surgen con más frecuencia en la práctica son
-
$t_\nu$ , el estudiante $t$ distribución con $\nu = n-1$ "grados de libertad". Esta es la distribución de la estadística $$t = \frac{\bar X}{\operatorname{se}(X)}$$ donde $\bar X = (X_1 + X_2 + \cdots + X_n)/n$ modela la media de los datos y $\operatorname{se}(X) = (1/\sqrt{n})\sqrt{(X_1^2+X_2^2 + \cdots + X_n^2)/(n-1) - \bar X^2}$ es el error estándar de la media. La división por $n-1$ muestra que $n$ debe ser $2$ o mayor, de donde $\nu$ es un número entero $1$ o mayor. La fórmula, aunque aparentemente un poco complicada, es la raíz cuadrada de una función racional de los datos de grado dos: es relativamente sencilla.
-
$\chi^2_\nu$ , el $\chi^2$ (chi-cuadrado) distribución con $\nu$ "grados de libertad" (d.f.). Se trata de la distribución de la suma de los cuadrados de $\nu$ variables normales independientes. La distribución de la media de los cuadrados de estas variables será, por tanto, una $\chi^2$ distribución escalada por $1/\nu$ : Me referiré a esto como un "normalizado" $\chi^2$ distribución.
-
$F_{\nu_1, \nu_2}$ , el $F$ distribución de la relación con los parámetros $(\nu_1, \nu_2)$ es el cociente de dos normalizados independientes $\chi^2$ distribuciones con $\nu_1$ y $\nu_2$ grados de libertad.
Los cálculos matemáticos muestran que las tres distribuciones tienen densidades. Es importante destacar que la densidad de la $\chi^2_\nu$ es proporcional al integrando en la definición integral de Euler de la Gamma ( $\Gamma$ ). Vamos a compararlos:
$$f_{\chi^2_\nu}(2x) \propto x^{\nu/2 - 1}e^{-x};\quad f_{\Gamma(\nu)}(x) \propto x^{\nu-1}e^{-x}.$$
Esto demuestra que dos veces al $\chi^2_\nu$ tiene una distribución Gamma con parámetro $\nu/2$ . El factor de la mitad es lo suficientemente molesto, pero restando $1$ haría que la relación fuera mucho peor. Esto ya proporciona una respuesta convincente a la pregunta: si queremos que el parámetro de un $\chi^2$ distribución para contar el número de variables normales al cuadrado que la producen (hasta un factor de $1/2$ ), entonces el exponente en su función de densidad debe ser uno menos que la mitad de esa cuenta.
¿Por qué el factor de $1/2$ menos problemática que una diferencia de $1$ ? La razón es que el factor seguirá siendo consistente cuando sumemos cosas. Si la suma de cuadrados de $n$ normales independientes es proporcional a una distribución Gamma con parámetro $n$ (por algún factor), entonces la suma de cuadrados de $m$ normales independientes es proporcional a una distribución Gamma con parámetro $m$ (por el mismo factor), por lo que la suma de los cuadrados de todos los $n+m$ es proporcional a una distribución Gamma con parámetro $m+n$ (sigue siendo el mismo factor). El hecho de que la adición de los parámetros se asemeje tanto a la adición de los recuentos es muy útil.
Sin embargo, si elimináramos ese molesto " $-1$ " de las fórmulas matemáticas, estas bonitas relaciones se complicarían. Por ejemplo, si cambiamos la parametrización de las distribuciones Gamma para referirnos a la potencia real de $x$ en la fórmula, de modo que a $\chi^2_1$ distribución estaría relacionada con una "Gamma $(0)$ "(ya que la potencia de $x$ en su PDF es $1-1=0$ ), entonces la suma de tres $\chi^2_1$ distribuciones tendría que llamarse "Gamma $(2)$ ". En resumen, la estrecha relación aditiva entre los grados de libertad y el parámetro en las distribuciones Gamma se perdería al eliminar el $-1$ de la fórmula y absorberla en el parámetro.
Del mismo modo, la función de probabilidad de un $F$ está estrechamente relacionada con las distribuciones Beta. En efecto, cuando $Y$ tiene un $F$ la distribución de la relación, la distribución de $Z=\nu_1 Y/(\nu_1 Y + \nu_2)$ tiene un Beta $(\nu_1/2, \nu_2/2)$ distribución. Su función de densidad es proporcional a
$$f_Z(z) \propto z^{\nu_1/2 - 1}(1-z)^{\nu_2/2-1}.$$
Además, cerrando el círculo de estas ideas, la plaza de un estudiante $t$ distribución con $\nu$ d.f. tiene un $F$ distribución de la relación con los parámetros $(1,\nu)$ . Una vez más, es evidente que mantener la parametrización convencional mantiene una clara relación con el cuenta que contribuyen a los grados de libertad.
Desde el punto de vista estadístico, pues, lo más natural y sencillo sería utilizar una variación de las parametrizaciones matemáticas convencionales de $\Gamma$ y las distribuciones Beta: deberíamos preferir llamar a un $\Gamma(\alpha)$ distribución a " $\Gamma(2\alpha)$ distribución" y la Beta $(\alpha, \beta)$ distribución debería llamarse "Beta $(2\alpha, 2\beta)$ distribución". De hecho, ya lo hemos hecho: precisamente por eso seguimos utilizando los nombres "Chi-cuadrado" y " $F$ Distribución "Ratio" en lugar de "Gamma" y "Beta". No importa, en ningún caso querríamos eliminar el " $-1$ " que aparecen en las fórmulas matemáticas de sus densidades. Si lo hiciéramos, perderíamos la conexión directa entre los parámetros de las densidades y los recuento de datos con los que se asocian: siempre estaríamos fuera de uno.
5 votos
Una razón profunda se insinúa en esta respuesta : $f$ es igual a $x^\alpha(1-x)^\beta$ en relación con la medida $d\mu=dx/((x(1-x))$ . Esto reduce su pregunta a "¿por qué esa medida en particular? Reconociendo que esta medida es $$d\mu=d\left(\log\left(\frac{x}{1-x}\right)\right)$$ sugiere que la forma "correcta" de entender estas distribuciones es aplicar la transformación logística: la " $-1$ " desaparecerán los términos.
0 votos
@whuber Me temo que tu comentario no me queda del todo claro... ¿Quizás podrías ampliarlo en la respuesta (sobre todo en el "por qué" y el "y qué")?
1 votos
Creo que la razón real por la que ocurrió es la histórica - porque aparece así en el función beta que da nombre a la distribución. En cuanto a por qué que tiene $-1$ en el poder, supongo que en última instancia, estaría relacionado con la razón que menciona whuber (aunque históricamente no tiene nada que ver con la medida o incluso la probabilidad).
0 votos
@Glen_b aunque, entonces, ¿por qué se hizo popular? Yo seguiría sosteniendo que la primera parametrización parece más "intuitiva", pero puedo estar equivocado.
2 votos
@Glen_b Es más que histórico: hay razones profundas. Se deben a la íntima conexión entre las funciones Beta y Gamma, reduciendo la pregunta a por qué el exponente en $\Gamma(s)=\int_0^\infty t^{s-1}e^{-t}dt$ es $s-1$ y no $s$ . Que es porque $\Gamma$ es una suma de Gauss . De forma equivalente, es "correcto" ver $\Gamma$ como una integral de un homomorfismo multiplicativo $t\to t^s$ veces un carácter aditivo $t\to e^{-t}$ contra la medida de Haar $dt/t$ en el grupo multiplicativo $\mathbb{R}^{\times}$ .
1 votos
@w.h Esa es una buena razón por la que la función gamma debería ser elegida de esa manera (y ya sugerí que tal razón existía arriba y acepto que alguna forma de razonamiento parecida a esa - pero necesariamente con un formalismo diferente - entró en la elección de Euler); razones igualmente convincentes ocurren con la densidad; pero eso no establece que esta fue realmente la razón de la elección (por qué la forma fue elegida como lo fue), sólo que es una buena razón para hacerlo. La forma de la función gamma ...ctd
1 votos
Ctd... por sí sola podría ser fácilmente una razón suficiente para elegir esa forma para la densidad y para que otros sigan su ejemplo. [A menudo las elecciones se hacen por razones más sencillas que las que podemos identificar a posteriori y luego suelen ser necesarias razones de peso para hacer otra cosa. ¿Sabemos que esa fue la razón por la que se eligió inicialmente?] -- Usted explica claramente que hay una razón por la que debe elegir que la densidad sea así, en lugar de por qué es así. Eso implica una secuencia de personas que toman decisiones (para usarla de esa manera, y para seguirla), y sus razones en el momento en que eligieron.
2 votos
@Glen Es poco probable que alguien haya declarado explícitamente la "razón real" históricamente. Se ha observado que Euler cambió su parametrización tanto de Gamma como de Beta entre 1729 y 1763, llegando finalmente a la moderna, y que Legendre utilizó la parametrización moderna. Al revisar una serie de fórmulas en Whittaker y Watson, me llama la atención la simplificación efectuada por este cambio: donde de otro modo habría una abundancia de expresiones "+1" y "+2", uno tiende a ver los parámetros por sí mismos. Esto le parecería a cualquier matemático una razón suficiente para cambiar la parametrización.
1 votos
@whuber gracias por todos tus comentarios. He editado mi pregunta para que sea más clara: las razones históricas reales me preocupan menos, me interesan más bien los argumentos y las consecuencias de esas dos parametrizaciones. Sería estupendo que tradujeras tus comentarios en alguna respuesta.