Estoy tratando con un conjunto de datos ruidosos que tiene una cierta cantidad de error para cada estimador. Digamos que las xi son más/menos una constante. Me pregunto si hay una manera de manejar estos errores o al menos ver su efecto en la línea regresiva resultante.
Respuesta
¿Demasiados anuncios?Si su $x$ las variables (predictores, características, IVs) tienen errores, los estimadores de mínimos cuadrados ordinarios estarán sesgados.
[Esto supone que las x en las que se basan las y son las x "verdaderas" sin error, $y=\beta_0+\beta_1x+\epsilon$ pero sólo observamos $x^o=x+\eta$ ]
Arriba hay un gráfico de algunos "verdaderos $x$ (azul) y observado $x$ con error (naranja) con las líneas de mínimos cuadrados ajustadas para cada una de ellas (la línea de población está punteada en rojo pero coincide visualmente con la línea azul en la mitad inferior/izquierda del gráfico. En este ejemplo, el error en el $x$ es más o menos del mismo tamaño que el error en el $y$ y este aumento en la variación de $x$ "reparte" los puntos, aplanando un poco la estimación por mínimos cuadrados ordinarios (es pequeña porque la varianza del error de observación en $x$ es pequeña en relación con la varianza de $x$ ).
Vemos algunos indicios del efecto de "atenuación" (sesgo hacia $0$ ) que se observa con la regresión simple si se utilizan los mínimos cuadrados en esos datos.
En la regresión múltiple el sesgo no es necesariamente hacia 0, pero es la situación más habitual.
Para más información, consulte https://en.wikipedia.org/wiki/Errors-in-variables_models y preguntas con la etiqueta errors-in-variables
. También puede obtener algún valor de las búsquedas relacionadas con regresión del modelo II .