19 votos

Por qué el supuesto de normalidad en la regresión lineal

Mi pregunta es muy sencilla: ¿por qué elegimos la normal como la distribución que sigue el término de error en el supuesto de regresión lineal? ¿Por qué no elegimos otras como la uniforme, la t o la que sea?

5 votos

Nosotros no elija el supuesto normal. Lo que ocurre es que cuando el error es normal, los coeficientes del modelo siguen exactamente una distribución normal y se puede utilizar una prueba F exacta para comprobar las hipótesis sobre ellos.

11 votos

Porque las matemáticas se resuelven con la suficiente facilidad como para que la gente pudiera utilizarlas antes de los ordenadores modernos.

1 votos

@AdamO No entiendo; acabas de exponer las razones por las que lo elegimos.

32voto

AdamSane Puntos 1825

Elegimos otras distribuciones de error. En muchos casos se puede hacer con bastante facilidad; si se utiliza la estimación de máxima verosimilitud, esto cambiará la función de pérdida. Esto es lo que se hace en la práctica.

Los errores de Laplace (doble exponencial) corresponden a la regresión de las mínimas desviaciones absolutas/ $L_1$ regresión (que se discute en numerosos posts en el sitio). Las regresiones con errores t se utilizan ocasionalmente (en algunos casos porque son más robustas a los errores gruesos), aunque pueden tener una desventaja: la probabilidad (y por tanto el negativo de la pérdida) puede tener múltiples modos.

Los errores uniformes corresponden a un $L_\infty$ pérdida (minimizar la desviación máxima); dicha regresión se denomina a veces aproximación de Chebyshev (aunque cuidado, ya que hay otra cosa con el mismo nombre). Una vez más, esto se hace a veces (de hecho, para la regresión simple y los conjuntos de datos pequeños con errores limitados con dispersión constante, el ajuste es a menudo lo suficientemente fácil de encontrar a mano, directamente en un gráfico, aunque en la práctica se pueden utilizar métodos de programación lineal, u otros algoritmos; de hecho, $L_\infty$ y $L_1$ Los problemas de regresión son duales entre sí, lo que puede llevar a atajos a veces convenientes para algunos problemas).

De hecho, aquí hay un ejemplo de un modelo de "error uniforme" ajustado a los datos a mano:

L-infinity regression fitted by hand. The two "lowest" points under the strip of data points are marked, and the two "highest" points above the strip of data are marked.

Es fácil identificar (deslizando una regla hacia los datos) que los cuatro puntos marcados son los únicos candidatos a estar en el conjunto activo; tres de ellos formarán realmente el conjunto activo (y un poco de comprobación pronto identifica cuáles son los tres que conducen a la banda más estrecha que abarca todos los datos). La línea en el centro de esa banda (marcada en rojo) es entonces la estimación de máxima probabilidad de la línea.

Son posibles muchas otras opciones de modelo y se han utilizado bastantes en la práctica.

Obsérvese que si se tienen errores aditivos, independientes y de dispersión constante con una densidad de la forma $k\,\exp(-c.g(\varepsilon))$ la maximización de la probabilidad corresponderá a la minimización de $\sum_i g(e_i)$ , donde $e_i$ es el $i$ El residuo.

Sin embargo, hay una variedad de razones por las que los mínimos cuadrados son una opción popular, muchas de las cuales no requieren ninguna suposición de normalidad.

2 votos

Gran respuesta. ¿Le importaría añadir algunos enlaces que den más detalles sobre cómo se utilizan estas variaciones en la práctica?

0 votos

(+1) Gran respuesta. ¿Te importaría compartir el código R utilizado para ajustar el $L_{\infty}$ -¿Línea de regresión?

1 votos

Como expliqué en el texto, lo ajusté a mano, de forma muy similar al enfoque que describí. Aunque se puede hacer fácilmente usando código, literalmente abrí el gráfico en MS Paint e identifiqué los tres puntos en el conjunto activo (uniendo dos de los cuales daban la pendiente) - y luego moví la línea a mitad de camino hacia el tercer punto (reduciendo a la mitad la distancia vertical en píxeles y moviendo la línea hacia arriba esa cantidad de píxeles) - el punto es demostrar lo simple que podría ser. Se podría enseñar a un niño a hacerlo.

10voto

Jakub Narębski Puntos 87537

La hipótesis normal/gaussiana se utiliza a menudo porque es la opción más conveniente desde el punto de vista computacional. El cálculo de la estimación de máxima verosimilitud de los coeficientes de regresión es un problema de minimización cuadrática, que puede resolverse mediante álgebra lineal pura. Otras elecciones de distribuciones de ruido dan lugar a problemas de optimización más complicados que normalmente tienen que resolverse numéricamente. En particular, el problema puede no ser convexo, lo que genera complicaciones adicionales.

La normalidad no es necesariamente una buena suposición en general. La distribución normal tiene colas muy ligeras, y esto hace que la estimación de la regresión sea bastante sensible a los valores atípicos. Alternativas como las distribuciones Laplace o t de Student suelen ser superiores si los datos de medición contienen valores atípicos.

Para más información, consulte el libro seminal de Peter Huber, Robust Statistics.

2voto

asdf Puntos 106

Cuando se trabaja con esas hipótesis, la regresión basada en los cuadrados y la máxima verosimilitud le proporcionan la misma solución. También es capaz de obtener pruebas F sencillas para la significación de los coeficientes, así como intervalos de confianza para sus predicciones.

En conclusión, la razón por la que solemos elegir la distribución normal son sus propiedades, que suelen facilitar las cosas. Además, no es una suposición muy restrictiva, ya que muchos otros tipos de datos se comportarán de forma "más o menos normal"

De todos modos, como se mencionó en una respuesta anterior, hay posibilidades de definir modelos de regresión para otras distribuciones. La normal resulta ser la más recurrente

2voto

user164061 Puntos 281

Glen_b ha explicado muy bien que la regresión OLS se puede generalizar (maximizar la probabilidad en lugar de minimizar la suma de los cuadrados) y nosotros hacer elegir otras distribuciones.

Sin embargo, ¿por qué se elige la distribución normal tan a menudo ?

La razón es que la distribución normal se da en muchos lugares de forma natural. Es un poco lo mismo que vemos a menudo la proporción áurea o los números de Fibonacci ocurriendo "espontáneamente" en varios lugares de la naturaleza.

La distribución normal es la distribución límite para una suma de variables con varianza finita (o también son posibles restricciones menos estrictas). Y, sin tomar el límite, también es una buena aproximación para una suma de un número finito de variables. Así, dado que muchos errores observados se producen como una suma de muchos pequeños errores no observados, la distribución normal es una buena aproximación.

Vea también aquí Importancia de la distribución normal

donde las máquinas de frijoles de Galton muestran el principio de forma intuitiva

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png

-2voto

andynormancx Puntos 234

¿Por qué no elegimos otras distribuciones?

La regresión consiste en modelar unos valores continuos dados un conjunto de entradas. Consideremos los ejemplos de entrenamiento que consisten en un escalar objetivo $y_i \in \mathbb R$ y un vector de entrada $x_i \in \mathbb R^n$ . Que la predicción del objetivo dado $x_i$ sea

$$\hat y_i = w^\intercal x_i.$$

La pérdida por sorpresa suele ser la más sensible:

$$L = -\log P(y_i \mid x_i).$$

Se puede pensar en la regresión lineal como si se utilizara una densidad normal con varianza fija en la ecuación anterior:

$$L = -\log P(y_i \mid x_i) \propto (y_i - \hat y_i)^2.$$

Esto lleva a la actualización del peso:

$$\nabla_w L = (\hat y_i - y_i)x_i $$


En general, si se utiliza otra distribución de la familia exponencial, este modelo se denomina modelo lineal generalizado . La diferente distribución corresponde a una densidad diferente, pero se puede formalizar más fácilmente cambiando la predicción, el peso y el objetivo.

El peso se cambia a una matriz $W \in \mathbb R^{n\times k}$ . La predicción pasa a ser

$$\hat u_i \triangleq \nabla g(W x_i)$$

donde $\nabla g: \mathbb R^k \to \mathbb R^k$ se llama función de enlace o log-normalizador de gradiente . Y, el objetivo $y_i$ se cambia por un vector llamado estadísticas suficientes $u_i = T(y_i) \in \mathbb R^k$ .

Cada función de enlace y estadística suficiente corresponde a un supuesto distributivo diferente, que es de lo que trata tu pregunta. Para ver por qué, veamos la función de densidad de una familia exponencial de valor continuo con parámetros naturales $\eta$ :

$$f(z) = h(z)\exp(\eta^\intercal T(z) - g(\eta)).$$

Que los parámetros naturales $\eta$ sea $w^\intercal x_i$ y evaluar la densidad en el objetivo observado $z = y_i$ . Entonces, el gradiente de pérdidas es

$$\begin{align} \nabla_W L &= \nabla_W -\log f(x) \\ &= (\nabla g(W x_i)) x_i^\intercal - T(y_i) x_i^\intercal \\ &= (\hat u_i - u_i) x_i^\intercal \end{align},$$ que tiene la misma forma agradable que la regresión lineal.


Hasta donde yo sé, el gradiente log-normalizador puede ser cualquier función monótona y analítica, y cualquier función monótona y analítica es el gradiente log-normalizador de alguna familia exponencial.

0 votos

Esto es muy corto y demasiado críptico para nuestros estándares, por favor explique también sorpresa .

0 votos

@kjetilbhalvorsen parece que da pereza no buscar en Google los términos con los que no estás familiarizado es.wikipedia.org/wiki/Surprisal

1 votos

"cada función de enlace corresponde a un supuesto de distribución diferente" esto es muy vago. La función de enlace no tiene que ver con la generalización a diferentes supuestos de distribución, sino con la generalización de la parte (lineal) que describe la media de la distribución.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X