17 votos

¿De dónde provienen las suposiciones para la regresión lineal?

Ya he sabido que hay varias suposiciones cuando se usa el modelo de regresión lineal. Pero no puedo entender por qué existen algunas de ellas. Lo son:

  1. errores independientes
  2. distribución normal de los errores
  3. homosexualidad

¿Por qué no puedo simplemente usar el método del mínimo cuadrado sin estas suposiciones?

Quiero saber cómo afecta al $R^2$ pendiente y valor p si algunas suposiciones son inválidas. Por ejemplo: "si la suposición de error independiente es falsa, el valor p es menor que su verdadero valor".

3 votos

+1, creo que es una buena pregunta. Sin embargo, tenga en cuenta que algunas preguntas similares ya se han tratado antes en CV. Puede valer la pena su tiempo para busque en el sitio las afirmaciones de regresión & ver lo que ya existe. Puedo recomendar qué-es-una-lista-completa-de-los-supuestos-usuales-para-la-regresión-lineal & qué-significa-tener-varianza-constante-en-un-modelo-de-regresión-lineal .

23voto

AdamSane Puntos 1825

¿Por qué no puedo simplemente usar el método del mínimo cuadrado sin estas suposiciones?

Usted puede .

Sin embargo, inferencia - como el cálculo de los errores estándar, los intervalos de confianza y los valores p - se basan en esos supuestos.

Puedes calcular una línea de mínimos cuadrados sin que se sostengan... ...pero no será necesariamente lo mejor.

Puedes romper cada una de esas suposiciones y derivar algo más que los mínimos cuadrados que podrían tener más sentido.

Por ejemplo, la dependencia puede llevarle a modelos ARIMA o a modelos de efectos mixtos (por ejemplo)

los errores no normales pueden llevarte a los GLM (o a un número de otras cosas)

la heteroscedasticidad puede llevarte a los GLM, o a la regresión ponderada, o a la inferencia consistente en la heterocsedasticidad

En cuanto a su procedencia

  • La suposición de independencia es básicamente algo que se sostiene aproximadamente en muchos casos, y la suposición de independencia exacta hace la vida (mucho) más fácil.

  • La normalidad es una buena aproximación a los errores en algunos casos (si se tienen muchas fuentes de errores pequeños e independientes, en las que no domina ninguno, por ejemplo, el error general tenderá a ser aproximadamente normal), y de nuevo hace la vida más fácil (la menor cantidad de cuadrados es la máxima probabilidad en ese caso).

El Teorema de Gauss-Markov es relevante, y - al menos para los casos en que no todos los estimadores lineales son malos - nos anima a que lo consideremos cuando esas suposiciones no se sostienen todas.

  • La variación constante es otra suposición simplificadora que a veces es cierta.

Cuando se toman los tres juntos, los tipos de inferencia mencionados anteriormente se vuelven muy manejables. Y a veces, esas suposiciones son razonables.

Si los tamaños de las muestras son grandes y no hay puntos que influyan indebidamente, la normalidad es probablemente la menos crítica; en cuanto a la inferencia, puedes arreglártelas con un poco de no normalidad muy felizmente, siempre y cuando no estés tratando de construir intervalos de predicción .

Históricamente hablando podrías encontrar esto:

http://en.wikipedia.org/wiki/Least_squares#History

y tal vez este interesante (si puedes acceder a él).

---

Editar:

si la pendiente, el valor p o el R2 sigue siendo válido si alguna suposición es inválida

Tendré que hacer algunas suposiciones sobre lo que quieres decir con "válido

El artículo de wikipedia sobre OLS menciona algunos detalles sobre la consistencia y la optimización en el segundo párrafo. Más adelante, en el mismo artículo, se discuten varios supuestos y su violación.

Este documento discute la consistencia de las estimaciones de la pendiente de los mínimos cuadrados en diversas condiciones, pero si no se conocen cosas como la diferencia entre los diferentes tipos de convergencia puede que no ayude mucho.

Por el efecto de contravenir el supuesto de variaciones iguales, ver aquí .

La distribución de los valores p se basa en todas las suposiciones, pero como los tamaños de las muestras son muy grandes (en algunas condiciones no voy a ensayar aquí), el CLT le da la normalidad de las estimaciones de los parámetros cuando los errores no son normales; como resultado, la falta de normalidad leve en particular no será necesariamente un problema si las muestras son razonablemente grandes. Los valores p hacer se basan en el supuesto de igual varianza (véase el enlace anterior sobre heteroskedasticidad), y en el supuesto de independencia.

En $R^2$ - si piensas en $R^2$ como la estimación de una cantidad de población, que luego se basa en la varianza, se ve afectada críticamente por la violación de los supuestos de igual varianza e independencia. Por otro lado $R^2$ no es generalmente una cantidad particularmente importante.

---

Edición Mayor 2:

Perdón por la pregunta poco clara. Quiero saber alguna conclusión como "si la suposición de error independiente es falsa, el valor p es menor que su verdadero valor". O si este tipo de conclusión existe

El problema de romper la independencia es que hay infinitas maneras en que los errores pueden ser dependientes y la dirección de los efectos en cosas como los valores p pueden ser complejos. No hay una sola regla simple a menos que el dominio esté restringido de alguna manera. Si se especifican formas y direcciones particulares de dependencia, es posible llegar a algunas conclusiones.

Por ejemplo, cuando los errores son positivos autocorrelacionado la pendiente de regresión los errores estándar tienden a reducirse haciendo que las proporciones t se desvíen de 0, y por lo tanto los valores p sean más bajos (más significativos).

Del mismo modo, la dirección del efecto de la heteroskedasticidad depende de detalles específicos de la naturaleza de la salida.

Si tienes en mente algún tipo de desviación de los supuestos, puedes investigar el impacto en las variaciones/errores estándar y por lo tanto en cosas como los valores p y $R^2$ muy fácilmente a través del uso de la simulación (aunque en muchos casos también se puede obtener un camino justo con el álgebra).

(A modo de consejo general, puede notar que muchas de sus preguntas han sido contestadas directamente en los artículos de estadísticas relevantes de la wikipedia. Valdría la pena que leyera estos artículos y algunos de los artículos a los que enlazan).

1 votos

Gracias. De hecho, quiero saber exactamente cómo afecta la suposición al proceso de derivación de la regresión lineal. Esta respuesta respondió en parte a mi pregunta. Pero quiero saber más, por ejemplo, si la pendiente, el valor p o $R^2$ sigue siendo válida si algún supuesto no es válido.

1 votos

Parece que tienes que modificar tu pregunta o hacer una nueva. Tienes que dejar claro lo que buscas. No estoy seguro de lo que quieres decir con "cómo afecta exactamente la suposición al proceso de derivación". Ayudaría que aclararas lo que quieres decir con "sigue siendo válido".

0 votos

Tomé mis mejores conjeturas en cuanto a lo que quieres decir y proporcioné alguna información y enlaces relacionados con la pendiente, el valor p y $R^2$ .

2voto

RickyB Puntos 197

Si quieres mostrar que la unión contable de los subconjuntos contables es contable, puedes usar Cantor-Schroeder-Bernstein (no creo que use CA -- incluso en verano :) ), y establecer inyecciones entre $\mathbb N$ y $\mathbb N \times \mathbb N $ y al revés, generalizando esto:

tomar dos primos cualquiera, digamos 2,3, y el mapa: $(a,b)\rightarrow 2^a3^b$ ( puedes ver que, para generalizar a un producto de k-copias de $\mathbb N$ ...sólo toma k primos diferentes; si quieres un producto realmente countably-infinito, esto es quizás más delicado), y una inyección en la dirección opuesta es dada por , por ejemplo, n->(n,0,0,...).

Y, por cierto, cualquier elección de inyecciones en CSBernstein permite construir una bijección real.

EDITORIAL: Creo que no es muy difícil mostrar el mapa (a,b)-> $2^a3^b$ es una inyección; si tuviéramos $2^a3^b=2^{a'}3^{b'}$ se desprendería que $2^{a-a'}3^{b-b'}=1$ por simples argumentos de divisibilidad, cada uno de los factores del lado izquierdo tendría que dividir 1; de ello se deduce que a-a'=0 y b-b'=0, es decir, a=a', b=b'.

EDIT#2 : Por favor, vea algunas de las advertencias en la sección de comentarios sobre la conclusión de que la unión de los countables es contable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X