30 votos

¿Cuáles son los mitos relacionados con la regresión lineal y las transformaciones de datos?

Me he encontrado con muchos supuestos asociados a la regresión lineal (especialmente a la regresión por mínimos cuadrados ordinarios) que son falsos o innecesarios. Por ejemplo:

  • las variables independientes deben tener una distribución gaussiana
  • los valores atípicos son los puntos que están por encima o por debajo de los bigotes superiores o inferiores correspondientes (empleando la terminología del Boxplot)
  • y que el único objetivo de las transformaciones es acercar una distribución a la normalidad para adaptarla al modelo.

Me gustaría saber cuáles son los mitos que se suelen tomar por hechos/supuestos sobre la regresión lineal, especialmente en lo que respecta a las transformaciones no lineales asociadas y a los supuestos de distribución. ¿Cómo surgieron estos mitos?

33voto

Dave Puntos 76

Hay tres mitos que me molestan.

  1. Las variables predictoras deben ser normales.

  2. La distribución conjunta/marginal de $Y$ tiene que ser normal.

  3. Las variables predictoras no deben estar correlacionadas, y si lo están, algunas deben eliminarse.

Creo que los dos primeros provienen de un malentendido del supuesto estándar sobre la normalidad en una regresión lineal OLS, que supone que los términos de error, que son estimados por los residuos, son normales. Parece que la gente ha interpretado erróneamente que esto significa que la distribución conjunta/marginal de todos los $Y$ valores tiene que ser normal.

Para el mito de los predictores correlacionados, tengo dos hipótesis.

  1. La gente interpreta erróneamente la hipótesis de Gauss-Markov sobre la independencia del término de error como si los predictores fueran independientes.

  2. La gente cree que puede eliminar características para obtener un buen rendimiento con menos variables, disminuyendo el sobreajuste.

Entiendo la idea de dejar de lado los predictores para tener menos riesgo de sobreajuste sin sacrificar gran parte de la información en su espacio de características, pero parece que eso no funciona. Mi puesto aquí se explica por qué y se enlaza con otras lecturas.

24voto

mehturt Puntos 13

Mito

Un modelo de regresión lineal sólo puede modelar relaciones lineales entre el resultado $y$ y las variables explicativas.

Datos

A pesar de su nombre, los modelos de regresión lineal pueden acomodar fácilmente las relaciones no lineales utilizando polinomios, polinomios fraccionados, splines y otros métodos. El término "lineal" en la regresión lineal se refiere al hecho de que el modelo es lineal en los parámetros $\beta_0, \beta_1, \ldots$ . Para una explicación en profundidad sobre el término "lineal" con respecto a los modelos, recomiendo encarecidamente este puesto .

20voto

dan90266 Puntos 609

Las respuestas de @Dave son excelentes. Aquí hay algunos mitos más.

  1. La escala/transformación original para Y es la que debe utilizar en el modelo.
  2. El teorema del límite central significa que no hay que preocuparse por nada de esto si N es moderadamente grande.
  3. Probar diferentes transformaciones para Y no distorsiona los errores estándar, los valores p o la amplitud de los intervalos de confianza.

15voto

jldugger Puntos 7490

Mito: Las variables que no son "significativas" deben eliminarse de una regresión múltiple.

Ver ¿Cuándo se debe incluir una variable en una regresión a pesar de que no sea estadísticamente significativa? para una discusión. A continuación, busque en nuestro sitio "identificación de modelos", "regularización", "Lasso" etc.

12voto

mehturt Puntos 13

Mitos:

  • La normalidad de los residuos (y posiblemente otros supuestos del modelo) debe comprobarse con una prueba de hipótesis formal, como la prueba de Shapiro-Wilk.
  • Un pequeño $p$ -El valor de estas pruebas indica que el modelo no es válido.

Los hechos:

  • Prueba formal de normalidad (y de otros supuestos como la homocedasticidad) no responden a las preguntas pertinentes y si se utilizan para guiar las acciones posteriores, pueden distorsionar la característica de funcionamiento de los modelos (por ejemplo, inflar los errores de tipo 1, cambiar la distribución de $p$ -valores bajo el nulo, etc.).
  • Una prueba de Shapiro-Wilk "significativa" de los residuos sólo indica cierto grado de incompatibilidad con una distribución normal. No dice que la (inevitable) desviación de una distribución normal sea significativa o tenga un impacto en las características de funcionamiento del modelo. Algunos aspectos -por ejemplo, los intervalos de predicción- son más sensibles a la distribución de los errores que otros. La página web $t$ -la prueba de los coeficientes es razonablemente robusta (con respecto a los errores de tipo 1), por ejemplo. Que la desviación de los residuos de una distribución normal sea o no preocupante depende de varias cosas: el objetivo del análisis, el tamaño de la muestra, el grado de desviación, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X