Estoy tratando con un conjunto de datos ruidosos que tiene una cierta cantidad de error para cada estimador. Digamos que las xi son más/menos una constante. Me pregunto si hay una manera de manejar estos errores o al menos ver su efecto en la línea regresiva resultante.
Respuesta
¿Demasiados anuncios?Si su xx las variables (predictores, características, IVs) tienen errores, los estimadores de mínimos cuadrados ordinarios estarán sesgados.
[Esto supone que las x en las que se basan las y son las x "verdaderas" sin error, y=β0+β1x+ϵy=β0+β1x+ϵ pero sólo observamos xo=x+ηxo=x+η ]
Arriba hay un gráfico de algunos "verdaderos xx (azul) y observado xx con error (naranja) con las líneas de mínimos cuadrados ajustadas para cada una de ellas (la línea de población está punteada en rojo pero coincide visualmente con la línea azul en la mitad inferior/izquierda del gráfico. En este ejemplo, el error en el xx es más o menos del mismo tamaño que el error en el yy y este aumento en la variación de xx "reparte" los puntos, aplanando un poco la estimación por mínimos cuadrados ordinarios (es pequeña porque la varianza del error de observación en xx es pequeña en relación con la varianza de xx ).
Vemos algunos indicios del efecto de "atenuación" (sesgo hacia 00 ) que se observa con la regresión simple si se utilizan los mínimos cuadrados en esos datos.
En la regresión múltiple el sesgo no es necesariamente hacia 0, pero es la situación más habitual.
Para más información, consulte https://en.wikipedia.org/wiki/Errors-in-variables_models y preguntas con la etiqueta errors-in-variables
. También puede obtener algún valor de las búsquedas relacionadas con regresión del modelo II .