El comportamiento que se observa es el "típico" caso de la regresión logística, pero no siempre es cierto. También tiene en mucho más generalidad (ver más abajo). Es la consecuencia de la confluencia de tres diferentes hechos.
- La elección de modelado de la log-odds como una función lineal de los predictores,
- El uso de la máxima verosimilitud para obtener estimaciones de los coeficientes en el modelo de regresión logística, y
- La inclusión de un término de intersección en el modelo.
Si alguno de los de arriba no están presentes, entonces el promedio de las estimaciones de la probabilidad no será, en general, coincide con la proporción de unidades en la muestra.
Sin embargo, (casi) todo el software estadístico utiliza la estimación de máxima verosimilitud para estos modelos, por lo que, en la práctica, los puntos 1 y 2 son esencialmente siempre presente, y el punto 3 es generalmente presentes, salvo en los casos especiales.
Algunos detalles
En el típico de regresión logística marco, podemos observar el resultado de independiente binomio ensayos con una probabilidad de $p_i$. Deje $y_i$ ser las respuestas observadas. El total de la probabilidad es
$$
\mathcal L = \prod_{i=1}^n p_i^{y_i} (1-p_i)^{1 - y_i} = \prod_{i=1}^n \exp( y_i \log(p_i/(1-p_i)) + \log(1-p_i)) \>,
$$
y por lo que la log-verosimilitud es
$$
\ell = \sum_{i=1}^n y_i \log(p_i / (1-p_i)) + \sum_{i=1}^n \log(1-p_i) \> .
$$
Now, we have a vector of predictors $\newcommand{\x}{\mathbf x}\x_i$ para cada observación y de Hecho 1 anterior, el modelo de regresión logística postula que
$$
\log \frac{p_i}{1-p_i} = \beta^T \x_i \>,
$$
para algunos desconocida vector de parámetros $\beta$. Nota: reordenando, tenemos que $p_i = 1/(1+e^{-\beta^T \x_i})$.
Utilizando máxima verosimilitud para ajustar el modelo (2) se obtiene un conjunto de ecuaciones para resolver desde la consideración de $\partial \ell / \partial \beta = 0$. Observar que
$$
\frac{\partial \ell}{\parcial \beta} = \sum_i y_i \x_i - \sum_i \frac{\x_i}{1+\exp(-\beta^T \x_i)} = \sum_i y_i \x_i - \sum_i p_i \x_i \>,
$$
mediante el supuesto de una relación lineal entre el logaritmo de las probabilidades y los predictores. Esto significa, que el MLE satisface
$$
\sum_i y_i \x_i = \sum_i \hat{p}_i \x_i \>,
$$
desde Emv son invariantes bajo transformaciones, por lo tanto $\hat{p}_i = (1+\exp(-\hat{\beta}^T \x_i))^{-1}$ en este caso.
Basado en Hechos 3, si $\x_i$ tiene un componente $j$ que es siempre 1 por cada $i$,$\sum_i y_i x_{ij} = \sum_i y_i = \sum_i \hat{p}_i$, por lo empírica de la proporción de respuestas positivas coincide con el promedio de los armarios de probabilidades.
Una simulación
La inclusión de una intersección es importante. Aquí está un ejemplo en $R$ a demostrar que el comportamiento observado no puede producirse cuando no interceptar está presente en el modelo.
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Caso General: Como se mencionó anteriormente, la propiedad de que la media de respuesta es igual a la media predijo que decir tiene, mucho mayor generalidad para la clase de modelos lineales generalizados ajuste por máxima verosimilitud, utilizando el canónica de la función de enlace, y la inclusión de un intercepto en el modelo.
Referencias
Algunas buenas referencias para los asociados de la teoría son los siguientes.
- A. Agresti (2002), Análisis de Datos Categóricos, 2ª ed., Wiley.
- P. McCullagh y J. A. Nelder (1989), Modelos Lineales Generalizados, 2º
ed., Chapman & Hall. (Texto de los autores originales de los métodos generales.)