8 votos

¿Por qué GLMs predecir la media y no el modo?

¿Por qué un GLM predecir la media y no en el modo de una señal? No en contradicción con el fundamento detrás de la GLM, es decir, la máxima probabilidad? Las ecuaciones a resolver para los parámetros del modelo en un GLM se basan en la maximización de la probabilidad, como la describe la distribución de probabilidad del modelo de la señal. Esta distribución de probabilidad es máxima para el modo de no ser por la media (la distribución normal es una excepción: tanto el modo y la media son los mismos). Por lo tanto, un GLM deben prever el modo, no la media de una señal! (Para algunos antecedentes de esta cuestión ver aquí.)

14voto

eldering Puntos 3814

Hay dos cosas que discutir aquí:

  • Los hechos que un glm intentos de predecir $y$ como la media de una distribución condicional, y las estimaciones de los parámetros de $\beta$ por máxima verosimilitud son consistentes.
  • La estimación de los parámetros por máxima verosimilitud es no determinar el modo de distribución. Al menos no en la clásica formulación de un glm.

Permite llevar la más simple no-trivial glm como un ejemplo de trabajo, el modelo logístico. En la regresión logística tenemos una respuesta $y$ que es 0, 1 valoradas. Postulamos que la $y$ es de bernoulli distribuido condicional en nuestros datos

$$ y \mid X \sim Bernoulli(p(X)) $$

Y nosotros tratamos de estimar la media de esta distribución condicional (que en este caso es sólo $p$) por su vinculación a una función lineal de la $X$

$$ \log\left(\frac{p}{1-p}\right) = X \beta $$

La pausa y la reflexión, vemos que en este caso es natural querer saber $p$, que es una media de una distribución condicional.

En el glm de instalación, $p$ no se calcula directamente, es $\beta$ que el procedimiento de estimación de los objetivos. Para llegar a $\beta$ de probabilidad máxima. La probabilidad de observar un punto de datos $y$ desde el condicional de bernoulli distribución, dado el valor de $X$ observada, y un conjunto específico de parámetros $\beta$ ,es

$$ P \left( y \mid X, \beta \right) = p^y (1-p)^{1-y} $$

donde $p$ es una función de $\beta$ $X$ a través de la vinculación de la relación.

Aviso de que es $y$ que se realiza el muestreo de una distribución de probabilidad de aquí, no la beta.

Para aplicar el máximo de probabilidad, de convertir esto en una función de $\beta$, teniendo en cuenta tanto la $X$ $y$ fija y observó:

$$ L(\beta) = p^y (1-p)^{1-y} $$

Pero, $L$ es no una función de densidad, es una probabilidad. Cuando se maximiza la probabilidad de que se no estimar el modo de distribución porque simplemente no hay distribución de, bueno, de modo ize.

Se puede producir una densidad de $L$ proporcionando una distribución previa de los parámetros $\beta$ y el uso de la regla de Bayes, pero en el clásico glm formulación, esto no se hace.

14voto

Charan Puntos 11

El objetivo de máxima verosimilitud de ajuste es determinar los parámetros de algunos de distribución que mejor se ajuste a los datos - y, más en general, ¿cómo dijo que los parámetros pueden variar con covariables. En el caso de los GLMs, queremos determinar los parámetros de $\theta$ de algunos exponencial de la familia de distribución, y la forma en que son una función de algunas covariables $X$.

Para cualquier distribución de probabilidad en el overdispersed exponencial de la familia, la media de $\mu$ está garantizado para ser relacionados con el canónica exponencial de la familia parámetro $\mathbf{\theta}$ a través de la canónica de la función de enlace, $\theta = g(\mu)$. Incluso podemos determinar una fórmula general para $g$, y típicamente $g$ es invertible así. Si nos limitamos a establecer$\mu = g^{-1}(\theta)$$\theta = X\beta$, se obtiene automáticamente un modelo de cómo se $\mu$ $\theta$ variar con $X$, no importa lo que la distribución que estamos tratando, y que el modelo puede ser fácil y fiable de ajuste a los datos por parte convexa de la optimización. Matt respuesta muestra cómo funciona para la distribución de Bernoulli, pero la verdadera magia es que funciona para cada distribución en la familia.

El modo de no disfrutar de estas propiedades. De hecho, como Cliff AB señala, el modo puede incluso no tener un bijective relación con el parámetro de distribución, por lo que la inferencia de la modalidad es de muy limitada de energía. Tome la distribución de Bernoulli, por ejemplo. Su modo es 0 o 1, y conociendo el modo de sólo indica si $p$, la probabilidad de que 1, es mayor o menor que 1/2. En contraste, la media dice exactamente lo $p$ es.

Ahora, para aclarar cierta confusión en la pregunta: máxima verosimilitud no se trata de encontrar el modo de distribución, debido a que la probabilidad no es la misma función que el de la distribución. La probabilidad implica su modelo de distribución en su fórmula, pero ahí es donde terminan las similitudes. La probabilidad de la función $L(\theta)$ toma un valor de parámetro $\theta$ como entrada, y le dice cómo "probable" de su conjunto de datos completo , dado el modelo de distribución tiene que $\theta$. El modelo de distribución de $f_\theta(y)$ depende de $\theta$, sino como una función que toma un valor de $y$ como entrada y se indica la frecuencia con que una muestra aleatoria de esa distribución será igual a $y$. El máximo de $L(\theta)$ y el modo de $f_\theta(y)$ no son la misma cosa.

Tal vez ayuda a ver la probabilidad de la fórmula. En el caso de los IID datos de $y_1,y_2,\ldots,y_n$, tenemos $$L(\theta) = \prod_{i=1}^n f_\theta(y_i)$$ Los valores de $y_i$ son todos fijos: son los valores de los datos. La máxima probabilidad de encontrar el a $\theta$ que maximiza $L(\theta)$. Encontrar el modo de la distribución sería encontrar los $y$ que maximiza $f_\theta(y)$, que no es lo que queremos: $y$ se fija en la probabilidad, no una variable.

Por lo que encontrar el máximo de la función de probabilidad no es, en general, el mismo que encontrar el modo de que el modelo de distribución. (Es el modo de otra distribución, si usted le pregunta a un objetivo Bayesiano, pero esa es una historia muy diferente!)

4voto

steve Puntos 1

Gracias por todos los comentarios y respuestas. Aunque en ninguno de ellos es 100% la respuesta a mi pregunta, todos ellos me ayudaron a ver a través de la aparente contradicción. Por lo tanto, me decidí a formular la respuesta, yo creo que esto es un resumen de todas las ideas implicadas en los comentarios y respuestas:

La maximización de la probabilidad a través de los datos PDF $f(y; \theta, \phi)$ en GLMs es no relacionados con el modo de $f$ (pero a su media) debido a 2 razones:

  1. Cuando se maximiza $f(y; \theta, \phi)$ usted no considere el $f$ como una función de la $y$, pero como una función de la $\boldsymbol\beta$ (los parámetros del modelo lineal). Más específicamente, cuando diferenciar $f$ obtener un sistema de ecuaciones que conducen a determinar el $\boldsymbol\beta$, no lo hagas con respeto a $y$; se puede hacer con respecto a $\boldsymbol\beta$. Por lo tanto, la maximización de proceso le da la $\boldsymbol\beta$ que maximiza $f$. Un óptimo $\boldsymbol\beta$, y no un óptimo $y$ (que, de hecho, sería el modo), es el resultado de la maximización de proceso.

  2. Además, en el proceso de maximización de la media, $\boldsymbol\mu$, es una función de $\boldsymbol\beta$. Por lo tanto, a través de la maximización proceso también obtener el óptimo $\boldsymbol\mu$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X