54 votos

¿Por qué nos preocupamos tanto por la distribución normal de los términos de error (y la homocedasticidad) en la regresión lineal cuando no es necesario?

Supongo que me frustro cada vez que oigo a alguien decir que la no normalidad de los residuos y/o la heteroscedasticidad violan los supuestos de MCO. Para estimación en un modelo OLS ninguno de estos supuestos es necesario según el teorema de Gauss-Markov. Veo cómo esto importa en Pruebas de hipótesis para el modelo MCO, porque suponer estas cosas nos da fórmulas claras para las pruebas t, las pruebas F y los estadísticos de Wald más generales.

Pero no es demasiado difícil hacer pruebas de hipótesis sin ellos. Si dejamos de lado la homocedasticidad, podemos calcular fácilmente errores estándar robustos y errores estándar agrupados. Si eliminamos la normalidad por completo, podemos utilizar bootstrapping y, dada otra especificación paramétrica para los términos de error, la razón de verosimilitud y las pruebas del multiplicador de Lagrange.

Es una pena que lo enseñemos así, porque veo a mucha gente luchando con supuestos que no tienen por qué cumplir en primer lugar.

¿Por qué insistimos tanto en estos supuestos cuando tenemos la posibilidad de aplicar fácilmente técnicas más sólidas? ¿Me estoy perdiendo algo importante?

2 votos

Parece ser una cuestión disciplinaria. En mi experiencia, en los extremos, los textos de Econometría casi siempre cubren qué inferencias compra cada supuesto y los textos de Psicología nunca parecen mencionar nada sobre el tema.

12 votos

Sin embargo, la homocedasticidad es necesaria para que OLS sea AZUL.

4 votos

Creo que tiene razón, esas suposiciones reciben una atención indebida. El incumplimiento de la normalidad o la homocedasticidad condicional no es tan perjudicial para los objetivos inferenciales de la mayoría de los profesionales como la endogeneidad y las formas funcionales mal especificadas.

26voto

Jeff Bauer Puntos 236

En Econometría, diríamos que la no normalidad viola las condiciones del Modelo de Regresión Lineal Normal Clásico, mientras que la heteroscedasticidad viola tanto las hipótesis del CNLR como las del Modelo de Regresión Lineal Clásico.

Pero los que dicen "...viola OLS" también están justificados: el nombre Ordinario Los mínimos cuadrados proceden directamente de Gauss y se refieren esencialmente a normal errores. En otras palabras, "MCO" no es un acrónimo de la estimación por mínimos cuadrados (que es un principio y un enfoque mucho más general), sino de la CNLR.

Vale, esto era historia, terminología y semántica. Entiendo el núcleo de la pregunta del OP de la siguiente manera: "¿Por qué debemos hacer hincapié en el ideal, si hemos encontrado soluciones para el caso en que no está presente?" (Porque los supuestos de la CNLR son son ideales, en el sentido de que proporcionan excelentes propiedades de estimación por mínimos cuadrados "off-the-shelf", y sin necesidad de recurrir a resultados asintóticos. Recuerde también que MCO es de máxima verosimilitud cuando los errores son normales).

Como ideal, es un buen punto de partida enseñanza . Esto es lo que hacemos siempre al enseñar cualquier tipo de materia: Las situaciones "simples" son situaciones "ideales", libres de las complejidades que uno se va a encontrar realmente en la vida real y en la investigación real, y para las que no existen soluciones definitivas .

Y esto es lo que me parece problemático del post del OP: escribe sobre errores estándar robustos y bootstrap como si fueran "alternativas superiores", o soluciones infalibles a la falta de dichos supuestos en discusión para los que además el OP escribe

" suposiciones que la gente no tiene por qué cumplir"

¿Por qué? Porque hay algunos métodos para hacer frente a la situación, métodos que tienen cierta validez, por supuesto, pero que distan mucho de ser ideales? Los errores estándar de Bootstrap y de heteroscedasticidad robusta no son el si lo fueran, se habrían convertido en el paradigma dominante, enviando al CLR y al CNLR a los libros de historia. Pero no es así.

Así que partimos de la base de que garantiza aquellas propiedades de los estimadores que hemos considerado importantes (otra discusión es si las propiedades designadas como deseables son realmente las que deberían ser), de forma que tengamos visible que cualquier violación de las mismas, tiene consecuencias que no pueden ser compensadas totalmente a través de los métodos que hemos encontrado para tratar la ausencia de estos supuestos. Sería realmente peligroso, desde el punto de vista científico, transmitir la sensación de que "podemos llegar a la verdad de las cosas", porque, sencillamente, no podemos.

Por lo tanto, permanecen soluciones imperfectas a un problema no una forma alternativa y/o definitivamente superior de hacer las cosas. Por lo tanto, primero tenemos que enseñar la situación sin problemas, luego señalar los posibles problemas y, por último, debatir las posibles soluciones. De lo contrario, elevaríamos estas soluciones a un estatus que realmente no tienen.

0 votos

Hmmm, si eso es lo que querías decir, podrías probar con "totalmente probado".

0 votos

@gung No, no, los métodos están "totalmente probados" en el sentido matemático, pero no son infalibles en cuanto a lo que realmente aportan (este "pequeño" detalle sobre la asintótica de nuevo, y cuál es su valor). Tu corrección ha sido la correcta.

22voto

Eero Puntos 1612

Si tuviéramos tiempo en la clase en la que introducimos por primera vez los modelos de regresión para hablar del bootstrapping y de las otras técnicas que has mencionado (incluidos todos sus supuestos, escollos, etc.), entonces estaría de acuerdo contigo en que no es necesario hablar de los supuestos de normalidad y homocedasticidad. Pero en realidad, cuando se introduce la regresión por primera vez no tenemos tiempo para hablar de todas esas otras cosas, así que preferimos que los estudiantes sean conservadores y comprueben cosas que pueden no ser necesarias y consulten a un estadístico (o tomen otra clase de estadística o 2 o 3, ...) cuando los supuestos no se cumplan.

Si les dices a los alumnos que esas suposiciones no importan excepto cuando..., entonces la mayoría sólo recordará la parte que no importa y no las partes importantes del cuándo.

Si tenemos un caso con varianzas desiguales, entonces sí que podemos ajustar una línea de mínimos cuadrados, pero ¿sigue siendo la "mejor" línea? o ¿sería mejor consultar a alguien con más experiencia/formación sobre cómo ajustar líneas en ese caso? Incluso si estamos satisfechos con la línea de mínimos cuadrados, ¿no deberíamos reconocer que las predicciones tendrán propiedades diferentes para valores diferentes del predictor o predictores? Por lo tanto, la comprobación de varianzas desiguales es buena para interpretaciones posteriores, incluso si no la necesitamos para las pruebas/intervalos/etc. que estamos utilizando.

0 votos

Entiendo y comprendo lo que dices, especialmente que hay una importante limitación de tiempo. Lo que veo en mi institución es que, cuando los estudiantes se enfrentan a estos supuestos, a menudo no reciben o no pueden recibir el asesoramiento necesario. Así que acaban seleccionando proyectos basándose en el ajuste de los supuestos del modelo o utilizando inadecuadamente el modelo clásico para violar los supuestos. En mi opinión, si se enseñaran técnicas más sólidas, los estudiantes tendrían menos opciones y podrían dedicarse a proyectos que realmente les apasionan.

13 votos

Siempre se empieza con un caso ideal cuando se enseña, y luego se entra en todo tipo de complicaciones. En econometría a nivel de doctorado se enseñan todo tipo de cosas raras, pero lleva tiempo llegar hasta ahí. No creo que sea un problema de la educación que la mayoría de la gente se baje del tren alrededor del nivel de maestría. En realidad, yo diría que el mayor problema es la plaga de "científicos de datos" a medio hacer, con un conocimiento casi nulo de los fundamentos de la estadística, que aplican paquetes R de fantasía a diestro y siniestro, sin tener ni idea de lo que están haciendo y luchando por dar sentido a los resultados.

0 votos

@Aksakal ¿dónde ves exactamente ese gran número de analistas excesivamente confiados y poco cualificados? Porque lo que me encuentro más a menudo es casi lo contrario. La gente tiene miedo de probar las técnicas que ha aprendido a menos que primero reciba la aprobación de un supuesto experto. Sólo en este sitio, estoy seguro de que ha visto las numerosas preguntas del tipo "¿Se me permite...?" o "¿Es válido....?" cuando una pregunta más avezada/constructiva sería "¿Qué resultaría si....?".

19voto

AdamSane Puntos 1825

1) Rara vez la gente sólo quiere estimar. Por lo general, el objetivo, o al menos parte de él, es la inferencia (IC, IP, pruebas) (aunque a veces se haga de manera relativamente informal).

2) Cosas como el teorema de Gauss Markov no son necesariamente de mucha ayuda: si la distribución se aleja lo suficiente de la normalidad, un estimador lineal no sirve de mucho. No tiene sentido obtener el AZUL si ningún estimador lineal es muy bueno.

3) cosas como los estimadores sándwich implican un gran número de parámetros implícitos. Puede estar bien si se dispone de muchos datos, pero muchas veces no es así.

4) Los intervalos de predicción se basan en la forma de la distribución condicional, incluido un buen control de la varianza en la observación.

5) cosas como el bootstrapping suelen ser útiles para muestras muy grandes. A veces tienen problemas con muestras pequeñas, e incluso en muestras de tamaño moderado, a menudo nos encontramos con que las propiedades de cobertura reales no son ni parecidas a las anunciadas.

Es decir, pocas cosas son la panacea que a la gente le gustaría que fueran. Todas esas cosas tienen su lugar, y sin duda hay muchos casos en los que (digamos) la normalidad es no y en los que la estimación y la inferencia (pruebas e IC) se pueden realizar razonablemente sin necesidad de normalidad, varianza constante, etcétera.

Algo que a menudo parece olvidarse son otros supuestos paramétricos que podrían hacerse en su lugar. A menudo, la gente sabe lo suficiente sobre una situación como para hacer una suposición paramétrica bastante decente (por ejemplo, que la respuesta condicional tenderá a ser sesgada a la derecha con una d.s. bastante proporcional a la media podría llevarnos a considerar un modelo gamma o lognormal); a menudo, esto puede tratar tanto la heteroscedasticidad como la no normalidad de una sola vez.

Una herramienta muy útil es la simulación, con la que podemos examinar las propiedades de nuestras herramientas en situaciones muy parecidas a las que parecen haber originado nuestros datos, y así utilizarlas con la tranquilidad de saber que tienen buenas propiedades en esos casos (o, a veces, ver que no funcionan tan bien como cabría esperar).

0 votos

"En economía y finanzas empresariales, se hacen muchas estimaciones para determinar el impacto de una determinada variable. He leído un montón de artículos en los que los autores ni siquiera se fijan en los intervalos de confianza, se fijan en la significación, por supuesto, bajo los supuestos normales.

6 votos

@Aksakal Bueno, sí, pero si están prestando alguna atención a los errores estándar, o t-valores, o p-valores, etc ... entonces por mi cálculo que no sólo quieren estimar. Ya sea que formalmente prueben/construyan intervalos o no, para que ese tipo de mirar esas otras cosas -- aunque sea informalmente -- sea significativo, tendrían que tener significado en primer lugar.

13voto

trish Puntos 31

Yo mismo luché con esto durante un tiempo, hasta que aprendí sobre la máxima verosimilitud y la estimación bayesiana.

Mi respuesta es muy sencilla: la normalidad y la homocedasticidad están implícitas en el ajuste de una regresión lineal con MCO. Es mejor aceptar sus supuestos que esconderlos bajo una alfombra lineal-algebraica.

Tal vez eso no es el razón para hacer hincapié en el supuesto distributivo, pero en mi opinión es una muy buena.

Además, las pruebas t y los valores p son ahora omnipresentes. ¿Realmente espera que los estudiantes tengan la autocontención de no correr summary en su lm salida en R antes de mirar un gráfico residual? Y que el cielo les ayude si utilizan Stata.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X