75 votos

¿Cuáles son algunos de los conceptos erróneos más comunes sobre la regresión lineal?

Tengo curiosidad por saber, para aquellos que tienen una amplia experiencia colaborando con otros investigadores, cuáles son algunos de los conceptos erróneos más comunes sobre la regresión lineal que encuentran?

Creo que puede ser un ejercicio útil para pensar en los conceptos erróneos más comunes antes de tiempo con el fin de

  1. Anticiparse a los errores de la gente y ser capaz de articular con éxito por qué alguna idea errónea es incorrecta

  2. Comprenda si yo mismo estoy albergando algunos conceptos erróneos.

Se me ocurren un par de cosas básicas:

Las variables independientes/dependientes deben estar distribuidas normalmente

Las variables deben estar estandarizadas para una interpretación precisa

¿Alguna otra?

Todas las respuestas son bienvenidas.

1 votos

Mucha gente que conozco sigue insistiendo en realizar linealizaciones en sus datos y dejarlo así, incluso cuando el entorno informático que utilizan tiene un buen soporte para la regresión no lineal. (Las linealizaciones son, por supuesto, útiles como puntos de partida para los ajustes no lineales, pero estas personas ni siquiera se dan cuenta de ello).

0 votos

Buenas respuestas, pero la mayoría asume que "otros investigadores" significa personas con formación en estadística. Muchos de los investigadores con los que he trabajado proceden de otras disciplinas y quizá hayan recibido un curso básico de estadística. Sus conceptos erróneos son mucho más fundamentales. Por ejemplo: la correlación implica causa y efecto, y la extrapolación del resultado será precisa en valores alejados de los datos de origen.

2 votos

Si Dios hubiera hecho el mundo lineal, no habría regresión no lineal.

43voto

GenericTypeTea Puntos 27689

Falsa premisa: A $\boldsymbol{\hat{\beta} \approx 0}$ significa que no hay una relación fuerte entre el VD y el IV.
Abundan las relaciones funcionales no lineales y, sin embargo, los datos producidos por muchas de esas relaciones a menudo producirían pendientes casi nulas si se asume que la relación debe ser lineal, o incluso aproximadamente lineal.

En relación con esto, en otro falsa premisa que los investigadores suelen asumir -posiblemente porque muchos libros de texto de introducción a la regresión enseñan- que uno "comprueba la no linealidad" construyendo una serie de regresiones de la VD sobre expansiones polinómicas de la VD (por ejemplo, $Y \sim \beta_{0} + \beta_{X}X + \varepsilon$ , seguido de $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \varepsilon$ , seguido de $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \beta_{X^{3}}X^{3} + \varepsilon$ etc.). Al igual que la línea recta no puede representar bien una relación funcional no lineal entre DV e IV, una parábola no puede representar bien un número literalmente infinito de relaciones no lineales (por ejemplo, sinusoides, cicloides, funciones escalonadas, efectos de saturación, curvas s, etc. ad infinitum ). En cambio, se puede adoptar un enfoque de regresión que no asume ninguna forma funcional particular (por ejemplo, los alisadores de líneas, los GAM, etc.).

A La tercera premisa falsa es que el aumento del número de parámetros necesariamente resulta en una pérdida de poder estadístico. Esto puede ser falso cuando la verdadera relación no es lineal y requiere múltiples parámetros para su estimación (por ejemplo, una función de "palo roto" requiere no sólo el interceptar y pendiente términos de una línea recta, pero requiere punto en el que cambia la pendiente y un cuánto cambia la pendiente por también): los residuos de un modelo mal especificado (por ejemplo, una línea recta) pueden crecer bastante (en relación con una relación funcional correctamente especificada), lo que da lugar a una menor probabilidad de rechazo y a intervalos de confianza y de predicción más amplios (además de que las estimaciones estén sesgadas).

6 votos

(+1) Peculiaridades: (1) No creo que ni siquiera los textos introductorios impliquen que todas las curvas sean funciones polinómicas, sino que pueden aproximarse lo suficientemente bien en un rango determinado mediante funciones polinómicas. Así que entran en la clase de "aproximaciones de regresión que no asumen ninguna forma funcional particular", gobernadas por un "hiperparámetro" que especifica la ondulación: el span para loess, el nº de nudos para la regresión sobre una base spline, el grado para la regresión sobre una base polinómica. (No estoy agitando una bandera para los polinomios - es bien sabido que tienden a agitarse en los extremos más de lo que nos gustaría -, ...

2 votos

... sólo se les da su merecido). (2) Una sinusoide bien podría ajustarse como tal, en el marco del modelo lineal; un efecto de saturación utilizando un modelo no lineal (una hipérbola rectangular, por ejemplo); &c. Por supuesto, no has dicho lo contrario, pero quizá valga la pena señalar que si sabes que hay un ciclo, o una asíntota, aplicar esas restricciones en tu modelo será útil.

2 votos

@Scortchi ¡No podría estar más de acuerdo! (De hecho, dado un infinito número de polinomios, se puede representar perfectamente cualquier función). Apuntaba a lo conciso. :)

24voto

Silverfish Puntos 6909

Es muy común asumir que sólo $y$ los datos están sujetos a un error de medición (o al menos, que éste es el único error que consideraremos). Pero esto ignora la posibilidad -y las consecuencias- del error en la $x$ medidas. Esto puede ser especialmente grave en los estudios de observación en los que el $x$ las variables no están bajo control experimental.

Dilución de la regresión o atenuación por regresión es el fenómeno reconocido por Spearman (1904) por el que la pendiente de regresión estimada en una regresión lineal simple está sesgada hacia cero por la presencia de un error de medición en la variable independiente. Supongamos que la verdadera pendiente es positiva: el efecto de la desviación de los puntos $x$ (tal vez se visualice más fácilmente como un "emborronamiento" de los puntos en horizontal) es hacer que la línea de regresión sea menos pronunciada. Intuitivamente, los puntos con una gran $x$ son ahora más probables debido al error de medición positivo, mientras que el $y$ es más probable que refleje el valor real (sin errores) de $x$ y, por lo tanto, será más baja que la línea verdadera para el observado $x$ .

En modelos más complejos, el error de medición en $x$ Las variables pueden producir efectos más complicados en las estimaciones de los parámetros. Hay errores en los modelos de las variables que tienen en cuenta dicho error. Spearman sugirió un factor de corrección para desatenuar los coeficientes de correlación bivariados y se han desarrollado otros factores de corrección para situaciones más sofisticadas. Sin embargo, estas correcciones pueden ser difíciles -sobre todo en el caso multivariante y en presencia de factores de confusión- y puede ser controvertido si la corrección es una auténtica mejora, véase, por ejemplo, Smith y Phillips (1996).

Así que supongo que se trata de dos conceptos erróneos por el precio de uno: por un lado, es un error pensar que la forma en que escribimos $y = X\beta + \varepsilon$ significa que "todo el error está en el $y$ "e ignorar la posibilidad, físicamente muy real, de errores de medición en las variables independientes. Por otra parte, puede ser desaconsejable aplicar ciegamente "correcciones" para el error de medición en todas esas situaciones como respuesta instintiva (aunque puede ser una buena idea tomar medidas para reducir el error de medición en primer lugar).

(Probablemente también debería enlazar con otros modelos comunes de error en las variables, en un orden cada vez más general: regresión ortogonal , Regresión de Deming y mínimos cuadrados totales .)

Referencias

1 votos

A este respecto, esta es una de las razones por las que se utiliza la técnica denominada "mínimos cuadrados totales" o "regresión ortogonal" (según la referencia que se lea); es bastante más complicada que los mínimos cuadrados simples, pero merece la pena hacerla si todos los puntos están contaminados con errores.

0 votos

@J.M. Gracias - sí, de hecho, originalmente quería poner un enlace a TLS, pero me distraje con el artículo de Smith y Phillips.

3 votos

+1 Gran aportación a este tema. A menudo he considerado los modelos EIV en mi trabajo. Sin embargo, aparte de su complejidad o dependencia del conocimiento de los "ratios de error", hay una cuestión más conceptual a considerar: Muchas regresiones, especialmente en el aprendizaje supervisado o la predicción, quieren relacionar observado predictores para observado resultados. Los modelos EIV, en cambio, tratan de identificar la relación subyacente entre los media predictor y media respuesta... una pregunta ligeramente diferente.

22voto

Sean Hanley Puntos 2428

Hay algunos malentendidos estándar que se aplican en este contexto, así como en otros contextos estadísticos: por ejemplo, el significado de $p$ -valores, inferir incorrectamente la causalidad, etc.

Un par de malentendidos que creo que son específicos de la regresión múltiple son:

  1. Pensando que la variable con mayor coeficiente estimado y/o menor $p$ -el valor es "más importante".
  2. Pensar que añadiendo más variables al modelo se está "más cerca de la verdad". Por ejemplo, la pendiente de una simple regresión de $Y$ en $X$ puede no ser la verdadera relación directa entre $X$ y $Y$ , pero si añado variables $Z_1, \ldots, Z_5$ ese coeficiente será una mejor representación de la verdadera relación, y si añado $Z_6, \ldots, Z_{20}$ Será incluso mejor que eso.

15 votos

Buen material. Esta respuesta podría ser aún más útil si se explicara por qué las dos son erróneas y qué se debería hacer en su lugar?

14voto

AdamSane Puntos 1825

Yo diría que la primera que enumeras es probablemente la más común - y quizás la más extendida enseñó así -- de las cosas que se ven claramente como erróneas, pero aquí hay otras que están menos claras en algunas situaciones (si realmente se aplican) pero que pueden tener un impacto en más análisis, y quizás más seriamente. A menudo simplemente no se mencionan cuando se introduce el tema de la regresión.

  • Tratar como muestras aleatorias de la población de interés conjuntos de observaciones que no pueden acercarse a la representatividad (y mucho menos a un muestreo aleatorio). [Algunos estudios podrían considerarse más bien como muestras de conveniencia].

  • Con datos observacionales, simplemente se ignoran las consecuencias de dejar fuera importantes impulsores del proceso que seguramente sesgarían las estimaciones de los coeficientes de las variables incluidas (en muchos casos, incluso hasta cambiar probablemente su signo), sin intentar considerar formas de tratarlos (ya sea por desconocimiento del problema o simplemente por no saber que se puede hacer algo). [Algunos ámbitos de investigación tienen este problema más que otros, ya sea por el tipo de datos que se recopilan o porque es más probable que la gente de algunos ámbitos de aplicación haya recibido formación sobre el tema].

  • Regresión espuria (sobre todo con datos recogidos en el tiempo). [Incluso cuando la gente es consciente de que ocurre, hay otra idea errónea común de que basta con diferenciar a los supuestos estacionarios para evitar completamente el problema].

Hay muchos otros que se podrían mencionar, por supuesto (tratar como datos independientes que casi seguramente estarán correlacionados en serie o incluso integrados puede ser igual de común, por ejemplo).

Se puede notar que los estudios observacionales de datos recogidos a lo largo del tiempo pueden ser golpeados por todos estos a la vez... sin embargo, ese tipo de estudio es muy común en muchas áreas de investigación donde la regresión es una herramienta estándar. Cómo pueden llegar a publicarse sin que un solo revisor o editor se entere de al menos uno de ellos y al menos exija algún nivel de descargo de responsabilidad en las conclusiones, sigue preocupándome.

La estadística está plagada de problemas de resultados irreproducibles cuando se trata de experimentos bastante controlados (cuando se combinan con análisis quizá no tan controlados), así que en cuanto se sale de esos límites, ¿cuánto peor debe ser la situación de la reproducibilidad?

6 votos

En estrecha relación con algunos de sus puntos podría estar la idea de que "sólo $y$ los datos están sujetos a un error de medición" (o al menos, "éste es el único error que vamos a considerar"). No estoy seguro de que eso merezca ser metido con calzador aquí, pero ciertamente es muy común ignorar la posibilidad -y las consecuencias- del error aleatorio en la $x$ variables.

2 votos

@Silverfish I total Estoy de acuerdo con usted.

0 votos

@Silverfish es CW así que deberías sentirte extra libre de editar en una adición adecuada como esa.

12voto

throwaway Puntos 18

Probablemente no los llamaría conceptos erróneos, sino tal vez puntos comunes de confusión/engaño y, en algunos casos, cuestiones de las que los investigadores pueden no ser conscientes.

  • Multicolinealidad (incluyendo el caso de más variables que puntos de datos)
  • Heteroskedasticidad
  • Si los valores de las variables independientes están sujetos a ruido
  • Cómo afecta el escalado (o el no escalado) a la interpretación de los coeficientes
  • Cómo tratar los datos de varios sujetos
  • Cómo tratar las correlaciones en serie (por ejemplo, las series temporales)

En el lado de las ideas erróneas:

  • Qué significa la linealidad (por ejemplo $y = ax^2 + bx + c$ es no lineal con respecto a $x$ pero lineal con respecto a los pesos).
  • Que "regresión" significa mínimos cuadrados ordinarios o regresión lineal
  • Que las ponderaciones bajas/altas implican necesariamente relaciones débiles/fuertes con la variable dependiente
  • Esa dependencia entre las variables dependientes e independientes puede reducirse necesariamente a dependencias por pares.
  • Que una alta bondad de ajuste en el conjunto de entrenamiento implica un buen modelo (es decir, sin tener en cuenta el sobreajuste)

0 votos

Si las ponderaciones son cero, entonces esto implica que no hay una relación LINEAL entre el IV y el VD? Si las ponderaciones son muy pequeñas, no creo que esto diga nada sobre la relación lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X