30 votos

¿Cuáles son los mitos relacionados con la regresión lineal y las transformaciones de datos?

Me he encontrado con muchos supuestos asociados a la regresión lineal (especialmente a la regresión por mínimos cuadrados ordinarios) que son falsos o innecesarios. Por ejemplo:

  • las variables independientes deben tener una distribución gaussiana
  • los valores atípicos son los puntos que están por encima o por debajo de los bigotes superiores o inferiores correspondientes (empleando la terminología del Boxplot)
  • y que el único objetivo de las transformaciones es acercar una distribución a la normalidad para adaptarla al modelo.

Me gustaría saber cuáles son los mitos que se suelen tomar por hechos/supuestos sobre la regresión lineal, especialmente en lo que respecta a las transformaciones no lineales asociadas y a los supuestos de distribución. ¿Cómo surgieron estos mitos?

11voto

jldugger Puntos 7490

Mito: Siempre hay que estandarizar (o de alguna manera "normalizar") las variables con el fin de ajustar los modelos de regresión.

Normalmente no: El software lo hace automáticamente (bajo el capó, por así decirlo) o utiliza algoritmos que acomodan enormes rangos de valores entre las variables sin perder precisión numérica.

Sin embargo, cuando el orden de magnitud de una variable explicativa es más de unas ocho veces mayor que el de otra variable, entonces tenga cuidado: incluso la estandarización preliminar puede tener problemas. ("Ocho" órdenes de magnitud es la raíz cuadrada de la doble precisión, que son unos 15,6 órdenes de magnitud). El ejemplo más común es cuando se utiliza una fecha junto con otras variables, porque algunas fechas se representan como el número de segundos transcurridos desde aproximadamente 1970, que es del orden de $10^9$ segundos.

7voto

Nick Cox Puntos 22819

¿De dónde vienen estas ideas?

Los textos deficientes (corrección: textos muy deficientes) que tratan la estadística descriptiva suelen incluir una versión más o menos retorcida de la idea de que (1) lo ideal es que las variables se distribuyan normalmente para hacer algo inferencial, o bien (2) que se necesiten pruebas no paramétricas. Luego pueden o no mencionar que las transformaciones podrían acercarle a (1).

El primer contexto para escribir como ,esto es a menudo Estudiante $t$ pruebas de comparación de medias y correlaciones (Pearson). Existe un contexto histórico para ello, por ejemplo en los tratamientos que se centraron en un caso de referencia de una distribución normal bivariada con una correlación como parámetro.

Entonces los escritores empiezan a hablar de regresión.

Estos textos suelen ser inocentes de cualquier especificación formal de un proceso de generación de datos.

5voto

user164061 Puntos 281

"Además, ¿cómo surgieron esos mitos?"

Un supuesto común en la regresión es la homocedasticidad (y un mito es que también es necesaria). Las transformaciones se utilizan para acercar los datos a este supuesto.

La violación del supuesto no hace que el método de ajuste sea malo, la regresión por mínimos cuadrados es el mejor estimador lineal insesgado (en términos de menor varianza de las estimaciones) sin importar cuál sea la distribución subyacente.

Pero, la violación de los supuestos puede causar inferencias erróneas cuando expresamos los efectos observados en términos de significación/valores.

Hay una diferencia entre los supuestos necesarios para que la regresión por mínimos cuadrados funcione y los supuestos necesarios para que las pruebas de significación e hipótesis basadas en la regresión por mínimos cuadrados funcionen.

2voto

user164061 Puntos 281

Mito: El error/desviación de las observaciones tiene que estar distribuido normalmente.

No, no es así.

No se trata sólo de la distribución de los errores de las observaciones En cambio, lo que suele importar es el distribución del error de las estimaciones .

Estas estimaciones se calculan como una suma ponderada de las observaciones $$\hat\beta = M \cdot y$$ con $$M = (X^TX)^{-1}X^T$$

Si queremos estimar el error o la importancia de las estimaciones $\hat\beta$ entonces es suficiente si esas estimaciones siguen aproximadamente una distribución normal. Esto puede ocurrir también cuando el error de muestreo de las observaciones $y$ no siguen una distribución normal.

Debido al mismo principio del teorema del límite central, una estadística que es una suma ponderada de variables o algún tipo de media de variables acercarse a una distribución normal.

Por lo tanto, aunque la distribución del error/desviación de las observaciones no se distribuya normalmente, las estimaciones del error/desviación podrían seguir teniendo una distribución aproximadamente normal.

-3voto

Peter Westfall Puntos 11

Mito: Si el histograma de los residuos tiene una bonita forma de campana, y si el gráfico normal q-q de los residuos está muy cerca de una línea recta (y el tamaño de la muestra es razonablemente grande para que el error de muestreo sea menor), entonces el supuesto de normalidad es razonable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X