¿Por qué no elegimos otras distribuciones?
La regresión consiste en modelar unos valores continuos dados un conjunto de entradas. Consideremos los ejemplos de entrenamiento que consisten en un escalar objetivo $y_i \in \mathbb R$ y un vector de entrada $x_i \in \mathbb R^n$ . Que la predicción del objetivo dado $x_i$ sea
$$\hat y_i = w^\intercal x_i.$$
La pérdida por sorpresa suele ser la más sensible:
$$L = -\log P(y_i \mid x_i).$$
Se puede pensar en la regresión lineal como si se utilizara una densidad normal con varianza fija en la ecuación anterior:
$$L = -\log P(y_i \mid x_i) \propto (y_i - \hat y_i)^2.$$
Esto lleva a la actualización del peso:
$$\nabla_w L = (\hat y_i - y_i)x_i $$
En general, si se utiliza otra distribución de la familia exponencial, este modelo se denomina modelo lineal generalizado . La diferente distribución corresponde a una densidad diferente, pero se puede formalizar más fácilmente cambiando la predicción, el peso y el objetivo.
El peso se cambia a una matriz $W \in \mathbb R^{n\times k}$ . La predicción pasa a ser
$$\hat u_i \triangleq \nabla g(W x_i)$$
donde $\nabla g: \mathbb R^k \to \mathbb R^k$ se llama función de enlace o log-normalizador de gradiente . Y, el objetivo $y_i$ se cambia por un vector llamado estadísticas suficientes $u_i = T(y_i) \in \mathbb R^k$ .
Cada función de enlace y estadística suficiente corresponde a un supuesto distributivo diferente, que es de lo que trata tu pregunta. Para ver por qué, veamos la función de densidad de una familia exponencial de valor continuo con parámetros naturales $\eta$ :
$$f(z) = h(z)\exp(\eta^\intercal T(z) - g(\eta)).$$
Que los parámetros naturales $\eta$ sea $w^\intercal x_i$ y evaluar la densidad en el objetivo observado $z = y_i$ . Entonces, el gradiente de pérdidas es
$$\begin{align} \nabla_W L &= \nabla_W -\log f(x) \\ &= (\nabla g(W x_i)) x_i^\intercal - T(y_i) x_i^\intercal \\ &= (\hat u_i - u_i) x_i^\intercal \end{align},$$ que tiene la misma forma agradable que la regresión lineal.
Hasta donde yo sé, el gradiente log-normalizador puede ser cualquier función monótona y analítica, y cualquier función monótona y analítica es el gradiente log-normalizador de alguna familia exponencial.
5 votos
Nosotros no elija el supuesto normal. Lo que ocurre es que cuando el error es normal, los coeficientes del modelo siguen exactamente una distribución normal y se puede utilizar una prueba F exacta para comprobar las hipótesis sobre ellos.
11 votos
Porque las matemáticas se resuelven con la suficiente facilidad como para que la gente pudiera utilizarlas antes de los ordenadores modernos.
1 votos
@AdamO No entiendo; acabas de exponer las razones por las que lo elegimos.
2 votos
@JiK si pudiera elegir las distribuciones, no habría necesidad de estadísticas en absoluto. Todo el mundo sería probabilidad.
1 votos
@AdamO Puedes elegir supuestos para tu modelo cuando haces inferencia estadística, así que no creo que eso signifique que no haya estadística.
0 votos
@JiK si tuviera que elegir supuestos, no elegiría ninguno. Resulta que OLS es un estimador minimax que minimiza la pérdida de error al cuadrado y eso es muy útil. La única razón por la que un error "normal" es útil es que se puede calcular una prueba F exacta para la significación de los coeficientes del modelo. En tamaños de muestra decentes, incluso eso no importa. OLS es bastante robusto a los errores no normales por la CLT. Incluso Gauss se dio cuenta de esto hace casi 200 años cuando derivó el estimador OLS, pero este hecho parece haberse perdido en la historia por la forma excesivamente simplista en que ahora enseñamos la modelización de la regresión.
1 votos
@kjetilbhalvorsen: Ambos títulos son similares, pero la pregunta que hacen los cuerpos "¿Por qué asumimos una distribución normal de los términos de error?" vs "¿Podemos construir un escenario en el que los residuos se distribuyan normalmente pero X, Y no lo hagan?" vs "¿Qué pasa si los residuos se distribuyen normalmente pero Y no?" que a su vez es un casi-duplicado más. Podrían los usuarios con suficiente reputación aquí empezar a arreglar los títulos y cerrar agresivamente los duplicados?
0 votos
@AdamO Me encantaría leer más sobre cómo hacer inferencia estadística sin supuestos.
0 votos
@jik se llama vida real. Recoges datos con una pregunta científica en mente y disciernes si un análisis preestablecido es capaz de responder a esa pregunta. Muy diferente a los libros de texto.
0 votos
@kjetilbhalvorsen No veo cómo esto es un duplicado. Esta pregunta se refiere a la utilización de supuestos diferentes al de normalidad para el término de error. No es el caso de la pregunta duplicada que trata de que "(los marginales) X e Y no son normales pero el término de error sí".
0 votos
@AdamO Los modelos también se usan en la vida real.