¿Por qué no puedo simplemente usar el método del mínimo cuadrado sin estas suposiciones?
Usted puede .
Sin embargo, inferencia - como el cálculo de los errores estándar, los intervalos de confianza y los valores p - se basan en esos supuestos.
Puedes calcular una línea de mínimos cuadrados sin que se sostengan... ...pero no será necesariamente lo mejor.
Puedes romper cada una de esas suposiciones y derivar algo más que los mínimos cuadrados que podrían tener más sentido.
Por ejemplo, la dependencia puede llevarle a modelos ARIMA o a modelos de efectos mixtos (por ejemplo)
los errores no normales pueden llevarte a los GLM (o a un número de otras cosas)
la heteroscedasticidad puede llevarte a los GLM, o a la regresión ponderada, o a la inferencia consistente en la heterocsedasticidad
En cuanto a su procedencia
-
La suposición de independencia es básicamente algo que se sostiene aproximadamente en muchos casos, y la suposición de independencia exacta hace la vida (mucho) más fácil.
-
La normalidad es una buena aproximación a los errores en algunos casos (si se tienen muchas fuentes de errores pequeños e independientes, en las que no domina ninguno, por ejemplo, el error general tenderá a ser aproximadamente normal), y de nuevo hace la vida más fácil (la menor cantidad de cuadrados es la máxima probabilidad en ese caso).
El Teorema de Gauss-Markov es relevante, y - al menos para los casos en que no todos los estimadores lineales son malos - nos anima a que lo consideremos cuando esas suposiciones no se sostienen todas.
- La variación constante es otra suposición simplificadora que a veces es cierta.
Cuando se toman los tres juntos, los tipos de inferencia mencionados anteriormente se vuelven muy manejables. Y a veces, esas suposiciones son razonables.
Si los tamaños de las muestras son grandes y no hay puntos que influyan indebidamente, la normalidad es probablemente la menos crítica; en cuanto a la inferencia, puedes arreglártelas con un poco de no normalidad muy felizmente, siempre y cuando no estés tratando de construir intervalos de predicción .
Históricamente hablando podrías encontrar esto:
http://en.wikipedia.org/wiki/Least_squares#History
y tal vez este interesante (si puedes acceder a él).
---
Editar:
si la pendiente, el valor p o el R2 sigue siendo válido si alguna suposición es inválida
Tendré que hacer algunas suposiciones sobre lo que quieres decir con "válido
El artículo de wikipedia sobre OLS menciona algunos detalles sobre la consistencia y la optimización en el segundo párrafo. Más adelante, en el mismo artículo, se discuten varios supuestos y su violación.
Este documento discute la consistencia de las estimaciones de la pendiente de los mínimos cuadrados en diversas condiciones, pero si no se conocen cosas como la diferencia entre los diferentes tipos de convergencia puede que no ayude mucho.
Por el efecto de contravenir el supuesto de variaciones iguales, ver aquí .
La distribución de los valores p se basa en todas las suposiciones, pero como los tamaños de las muestras son muy grandes (en algunas condiciones no voy a ensayar aquí), el CLT le da la normalidad de las estimaciones de los parámetros cuando los errores no son normales; como resultado, la falta de normalidad leve en particular no será necesariamente un problema si las muestras son razonablemente grandes. Los valores p hacer se basan en el supuesto de igual varianza (véase el enlace anterior sobre heteroskedasticidad), y en el supuesto de independencia.
En $R^2$ - si piensas en $R^2$ como la estimación de una cantidad de población, que luego se basa en la varianza, se ve afectada críticamente por la violación de los supuestos de igual varianza e independencia. Por otro lado $R^2$ no es generalmente una cantidad particularmente importante.
---
Edición Mayor 2:
Perdón por la pregunta poco clara. Quiero saber alguna conclusión como "si la suposición de error independiente es falsa, el valor p es menor que su verdadero valor". O si este tipo de conclusión existe
El problema de romper la independencia es que hay infinitas maneras en que los errores pueden ser dependientes y la dirección de los efectos en cosas como los valores p pueden ser complejos. No hay una sola regla simple a menos que el dominio esté restringido de alguna manera. Si se especifican formas y direcciones particulares de dependencia, es posible llegar a algunas conclusiones.
Por ejemplo, cuando los errores son positivos autocorrelacionado la pendiente de regresión los errores estándar tienden a reducirse haciendo que las proporciones t se desvíen de 0, y por lo tanto los valores p sean más bajos (más significativos).
Del mismo modo, la dirección del efecto de la heteroskedasticidad depende de detalles específicos de la naturaleza de la salida.
Si tienes en mente algún tipo de desviación de los supuestos, puedes investigar el impacto en las variaciones/errores estándar y por lo tanto en cosas como los valores p y $R^2$ muy fácilmente a través del uso de la simulación (aunque en muchos casos también se puede obtener un camino justo con el álgebra).
(A modo de consejo general, puede notar que muchas de sus preguntas han sido contestadas directamente en los artículos de estadísticas relevantes de la wikipedia. Valdría la pena que leyera estos artículos y algunos de los artículos a los que enlazan).
3 votos
+1, creo que es una buena pregunta. Sin embargo, tenga en cuenta que algunas preguntas similares ya se han tratado antes en CV. Puede valer la pena su tiempo para busque en el sitio las afirmaciones de regresión & ver lo que ya existe. Puedo recomendar qué-es-una-lista-completa-de-los-supuestos-usuales-para-la-regresión-lineal & qué-significa-tener-varianza-constante-en-un-modelo-de-regresión-lineal .