23 votos

¿Por qué hay -1 en la función de densidad de la distribución beta?

La distribución beta aparece en dos parametrizaciones (o aquí )

$$ f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1} $$

o el que parece usarse más comúnmente

$$ f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2} $$

Pero, ¿por qué exactamente hay " $-1$ "en la segunda fórmula?

La primera formulación es intuitiva parece para corresponder más directamente a la distribución binomial

$$ g(k) \propto p^k (1-p)^{n-k} \tag{3} $$

pero "visto" desde el $p$ perspectiva de la empresa . Esto es especialmente claro en modelo beta-binomial donde $\alpha$ puede entenderse como un antes número de éxitos y $\beta$ es un antes número de fallos.

Entonces, ¿por qué exactamente ganó popularidad la segunda forma y cuál es el razonamiento ¿detrás de él? ¿Cuáles son las consecuencias de utilizar cualquiera de las parametrizaciones (por ejemplo, para la conexión con la distribución binomial)?

Sería estupendo si alguien pudiera señalar adicionalmente los orígenes de dicha elección y los argumentos iniciales para ello, pero no es una necesidad para mí.

5 votos

Una razón profunda se insinúa en esta respuesta : $f$ es igual a $x^\alpha(1-x)^\beta$ en relación con la medida $d\mu=dx/((x(1-x))$ . Esto reduce su pregunta a "¿por qué esa medida en particular? Reconociendo que esta medida es $$d\mu=d\left(\log\left(\frac{x}{1-x}\right)\right)$$ sugiere que la forma "correcta" de entender estas distribuciones es aplicar la transformación logística: la " $-1$ " desaparecerán los términos.

0 votos

@whuber Me temo que tu comentario no me queda del todo claro... ¿Quizás podrías ampliarlo en la respuesta (sobre todo en el "por qué" y el "y qué")?

1 votos

Creo que la razón real por la que ocurrió es la histórica - porque aparece así en el función beta que da nombre a la distribución. En cuanto a por qué que tiene $-1$ en el poder, supongo que en última instancia, estaría relacionado con la razón que menciona whuber (aunque históricamente no tiene nada que ver con la medida o incluso la probabilidad).

13voto

jldugger Puntos 7490

Esta es una historia sobre los grados de libertad y los parámetros estadísticos y por qué es bueno que ambos tengan una conexión directa y sencilla.

Históricamente, el " $-1$ "aparecieron en los estudios de Euler sobre la función Beta. En 1763, Euler ya utilizaba esta parametrización, al igual que Adrien-Marie Legendre: su uso estableció la convención matemática posterior. Este trabajo es anterior a todas las aplicaciones estadísticas conocidas.

La teoría matemática moderna proporciona amplios indicios, a través de la riqueza de las aplicaciones en el análisis, la teoría de números y la geometría, de que la " $-1$ " tienen realmente algún significado. He esbozado algunas de esas razones en los comentarios a la pregunta.

Es más interesante saber cuál debe ser la parametrización estadística "correcta". Eso no está tan claro y no tiene por qué ser la misma que la convención matemática. Existe una enorme red de familias de distribuciones de probabilidad comúnmente utilizadas, bien conocidas e interrelacionadas. Así, las convenciones utilizadas para nombrar (es decir, parametrizar) una familia suelen implicar convenciones relacionadas para nombrar familias relacionadas. Si se cambia una parametrización, se querrán cambiar todas. Por lo tanto, podemos buscar pistas en estas relaciones.

Pocas personas estarían en desacuerdo con que las familias de distribución más importantes derivan de la familia Normal. Recordemos que una variable aleatoria $X$ se dice que está "normalmente distribuida" cuando $(X-\mu)/\sigma$ tiene una densidad de probabilidad $f(x)$ proporcional a $\exp(-x^2/2)$ . Cuando $\sigma=1$ y $\mu=0$ , $X$ se dice que tiene un estándar distribución normal.

Muchos conjuntos de datos $x_1, x_2, \ldots, x_n$ se estudian utilizando estadísticas relativamente sencillas que implican combinaciones racionales de los datos y potencias bajas (normalmente cuadrados). Cuando esos datos se modelan como muestras aleatorias de una distribución Normal -de modo que cada $x_i$ se ve como una realización de una variable Normal $X_i$ , todos los $X_i$ comparten una distribución común y son independientes: las distribuciones de esos estadísticos están determinadas por esa distribución Normal. Las que surgen con más frecuencia en la práctica son

  1. $t_\nu$ , el estudiante $t$ distribución con $\nu = n-1$ "grados de libertad". Esta es la distribución de la estadística $$t = \frac{\bar X}{\operatorname{se}(X)}$$ donde $\bar X = (X_1 + X_2 + \cdots + X_n)/n$ modela la media de los datos y $\operatorname{se}(X) = (1/\sqrt{n})\sqrt{(X_1^2+X_2^2 + \cdots + X_n^2)/(n-1) - \bar X^2}$ es el error estándar de la media. La división por $n-1$ muestra que $n$ debe ser $2$ o mayor, de donde $\nu$ es un número entero $1$ o mayor. La fórmula, aunque aparentemente un poco complicada, es la raíz cuadrada de una función racional de los datos de grado dos: es relativamente sencilla.

  2. $\chi^2_\nu$ , el $\chi^2$ (chi-cuadrado) distribución con $\nu$ "grados de libertad" (d.f.). Se trata de la distribución de la suma de los cuadrados de $\nu$ variables normales independientes. La distribución de la media de los cuadrados de estas variables será, por tanto, una $\chi^2$ distribución escalada por $1/\nu$ : Me referiré a esto como un "normalizado" $\chi^2$ distribución.

  3. $F_{\nu_1, \nu_2}$ , el $F$ distribución de la relación con los parámetros $(\nu_1, \nu_2)$ es el cociente de dos normalizados independientes $\chi^2$ distribuciones con $\nu_1$ y $\nu_2$ grados de libertad.

Los cálculos matemáticos muestran que las tres distribuciones tienen densidades. Es importante destacar que la densidad de la $\chi^2_\nu$ es proporcional al integrando en la definición integral de Euler de la Gamma ( $\Gamma$ ). Vamos a compararlos:

$$f_{\chi^2_\nu}(2x) \propto x^{\nu/2 - 1}e^{-x};\quad f_{\Gamma(\nu)}(x) \propto x^{\nu-1}e^{-x}.$$

Esto demuestra que dos veces al $\chi^2_\nu$ tiene una distribución Gamma con parámetro $\nu/2$ . El factor de la mitad es lo suficientemente molesto, pero restando $1$ haría que la relación fuera mucho peor. Esto ya proporciona una respuesta convincente a la pregunta: si queremos que el parámetro de un $\chi^2$ distribución para contar el número de variables normales al cuadrado que la producen (hasta un factor de $1/2$ ), entonces el exponente en su función de densidad debe ser uno menos que la mitad de esa cuenta.

¿Por qué el factor de $1/2$ menos problemática que una diferencia de $1$ ? La razón es que el factor seguirá siendo consistente cuando sumemos cosas. Si la suma de cuadrados de $n$ normales independientes es proporcional a una distribución Gamma con parámetro $n$ (por algún factor), entonces la suma de cuadrados de $m$ normales independientes es proporcional a una distribución Gamma con parámetro $m$ (por el mismo factor), por lo que la suma de los cuadrados de todos los $n+m$ es proporcional a una distribución Gamma con parámetro $m+n$ (sigue siendo el mismo factor). El hecho de que la adición de los parámetros se asemeje tanto a la adición de los recuentos es muy útil.

Sin embargo, si elimináramos ese molesto " $-1$ " de las fórmulas matemáticas, estas bonitas relaciones se complicarían. Por ejemplo, si cambiamos la parametrización de las distribuciones Gamma para referirnos a la potencia real de $x$ en la fórmula, de modo que a $\chi^2_1$ distribución estaría relacionada con una "Gamma $(0)$ "(ya que la potencia de $x$ en su PDF es $1-1=0$ ), entonces la suma de tres $\chi^2_1$ distribuciones tendría que llamarse "Gamma $(2)$ ". En resumen, la estrecha relación aditiva entre los grados de libertad y el parámetro en las distribuciones Gamma se perdería al eliminar el $-1$ de la fórmula y absorberla en el parámetro.

Del mismo modo, la función de probabilidad de un $F$ está estrechamente relacionada con las distribuciones Beta. En efecto, cuando $Y$ tiene un $F$ la distribución de la relación, la distribución de $Z=\nu_1 Y/(\nu_1 Y + \nu_2)$ tiene un Beta $(\nu_1/2, \nu_2/2)$ distribución. Su función de densidad es proporcional a

$$f_Z(z) \propto z^{\nu_1/2 - 1}(1-z)^{\nu_2/2-1}.$$

Además, cerrando el círculo de estas ideas, la plaza de un estudiante $t$ distribución con $\nu$ d.f. tiene un $F$ distribución de la relación con los parámetros $(1,\nu)$ . Una vez más, es evidente que mantener la parametrización convencional mantiene una clara relación con el cuenta que contribuyen a los grados de libertad.

Desde el punto de vista estadístico, pues, lo más natural y sencillo sería utilizar una variación de las parametrizaciones matemáticas convencionales de $\Gamma$ y las distribuciones Beta: deberíamos preferir llamar a un $\Gamma(\alpha)$ distribución a " $\Gamma(2\alpha)$ distribución" y la Beta $(\alpha, \beta)$ distribución debería llamarse "Beta $(2\alpha, 2\beta)$ distribución". De hecho, ya lo hemos hecho: precisamente por eso seguimos utilizando los nombres "Chi-cuadrado" y " $F$ Distribución "Ratio" en lugar de "Gamma" y "Beta". No importa, en ningún caso querríamos eliminar el " $-1$ " que aparecen en las fórmulas matemáticas de sus densidades. Si lo hiciéramos, perderíamos la conexión directa entre los parámetros de las densidades y los recuento de datos con los que se asocian: siempre estaríamos fuera de uno.

1 votos

Gracias por tu respuesta (ya he hecho +1). Sólo tengo una pequeña pregunta de seguimiento: tal vez me estoy perdiendo algo, pero ¿no estamos sacrificando la relación directa con el binomio mediante el uso de la parametrización -1?

0 votos

No sé a qué "relación directa con el binomio" te refieres, Tim. Por ejemplo, cuando la Beta $(a,b)$ se utiliza como una prioridad conjugada para una muestra binomial, es evidente que los parámetros son exactamente los que hay que utilizar: se añade $a$ (no $a-1$ ) al número de aciertos y $b$ (no $b-1$ ) al número de fallos.

1voto

farzad Puntos 4180

La notación te engaña. Hay un "oculto $-1$ " en su fórmula $(1)$ porque en $(1)$ , $\alpha$ y $\beta$ debe ser mayor que $-1$ (en el segundo enlace que has proporcionado en tu pregunta se dice esto explícitamente). El $\alpha$ y $\beta$ en las dos fórmulas no son los mismos parámetros; tienen rangos diferentes: en $(1)$ , $\alpha,\beta>-1$ y en $(2)$ , $\alpha,\beta>0$ . Estos rangos para $\alpha$ y $\beta$ son necesarias para garantizar que la integral de la densidad no diverja. Para ver esto, considere en $(1)$ el caso $\alpha=-1$ (o menos) y $\beta=0$ , a continuación, intente integrar el (núcleo de la) densidad entre $0$ y $1$ . Equivalentemente, intente lo mismo en $(2)$ para $\alpha=0$ (o menos) y $\beta=1$ .

2 votos

La cuestión de un rango de definición para $\alpha$ y $\beta$ parece desaparecer cuando la integral se interpreta, como hizo Pochhammer en 1890, como una integral de contorno específica. En ese caso puede equipararse a una expresión que determina una función analítica para todos los valores de $\alpha$ y $\beta$ -incluidos todos los complejos. Esto arroja luz sobre la preocupación en la pregunta: ¿por qué se ha adoptado exactamente esta parametrización específica, dado que hay muchas otras parametrizaciones posibles que parecen que podrían servir igualmente bien?

1 votos

Para mí, la duda del OP parece ser mucho más básica. Está algo confundido sobre el "-1" en (2), pero no en (1) (no es cierto, por supuesto). Parece que tu comentario está respondiendo a una pregunta diferente (mucho más interesante, por cierto).

2 votos

Gracias por el esfuerzo y la respuesta, pero sigue sin responder a mi principal preocupación: ¿por qué se eligió el -1? Siguiendo tu lógica, básicamente cualquier se podría elegir cambiando el límite inferior arbitrario por otro. No veo por qué -1 o 0 podrían ser mejores o peores límites inferiores para los valores de los parámetros, aparte del hecho de que 0 es un límite "estéticamente" más bonito. Por otro lado, Beta(0, 0) sería un buen "defecto" para la distribución uniforme cuando se utiliza la primera forma. Sí, son comentarios muy subjetivos, pero ese es mi punto principal: ¿hay alguna razón no arbitraria para esa elección?

0voto

user251466 Puntos 21

Para mí, la existencia de -1 en el exponente está relacionada con el desarrollo de la función Gamma. La motivación de la función Gamma es encontrar una curva suave para conectar los puntos de un factorial $x!$ . Como no es posible calcular $x!$ directamente si $x$ no es entero, la idea era encontrar una función para cualquier $x \geq 0$ que satisface la relación de recurrencia definida por el factorial, a saber

$f(1)=1\\ f(x+1)=x \cdot f(x). $

La solución fue mediante la convergencia de una integral. Para la función definida como

$f(x+1) = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt, $

La integración por partes proporciona lo siguiente:

$ \begin{align} f(x+1) & = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt \\ & = \Big[-t^{x}e^{-x} \Big]^{\infty}_{0} + \displaystyle\int_{0}^{\infty} x\cdot t^{x-1}e^{-x} dt \\ &= \lim_{x \to \infty} (-t^{x}e^{-x}) - 0 \cdot e^{-0} + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= 0 - 0 + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= x \cdot f(x) . \end{align} $

Así, la función anterior satisface esta propiedad, y el -1 en el exponente se deriva del procedimiento de integración por partes. Véase el artículo de Wikipedia https://en.wikipedia.org/wiki/Gamma_function .

Edit: Pido disculpas si mi post no es del todo claro; sólo intento señalar que, en mi idea, la existencia de -1 en la distribución beta proviene de la generalización del factorial mediante la función Gamma. Hay dos condiciones: $f(1)=1$ y $f(x+1)=x \cdot f(x)$ . Tenemos $\Gamma(x) = (x-1)!$ por lo que satisface $\Gamma(x+1) = x \cdot \Gamma(x) = x \cdot (x-1)! = x!$ . Además, tenemos $\Gamma(1) = (1-1)! = 0! = 1$ . En cuanto a la distribución beta con parámetros $\alpha, \beta$ La generalización del coeficiente binomial es $\dfrac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \cdot \Gamma(\beta)} = \dfrac{(\alpha + \beta - 1)!}{(\alpha-1)! \cdot (\beta-1)!}$ . Ahí tenemos el -1 en el denominador, para ambos parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X