¿Por qué estimación OLS implican tomar vertical de las desviaciones de los puntos a la línea en lugar de distancias horizontales?
Respuestas
¿Demasiados anuncios?MCO (mínimos cuadrados ordinarios) se supone que los valores representados por las distancias horizontales son predeterminados por el experimentador o medir con alta precisión (en relación a las distancias verticales). Cuando hay una cuestión de incertidumbre en las distancias horizontales, usted no debería estar usando MCO, sino que debe buscar errores en las variables de los modelos o, posiblemente, el análisis de componentes principales.
Pregunta Interesante. Mi respuesta sería que cuando estamos de instalación de un modelo OLS estamos implícitamente y, principalmente, tratando de predecir/explicar la variable dependiente en la mano - la "Y" del "Y vs X." Como tal, nuestra principal preocupación sería reducir al mínimo la distancia de nuestra linea ajustada a las observaciones reales con respecto a los resultados, lo que significa reducir al mínimo la distancia vertical. Esto, por supuesto, define a los residuos.
También, menos plazas de las fórmulas son fácil de derivar que la mayoría de los demás métodos, que es tal vez por qué llegó primero. :P
Como 'whuber' alude anteriormente, existen otros enfoques que tratan de X y de y con igual énfasis en la instalación de una línea de ajuste óptimo. Un enfoque que soy consciente de que es "principales líneas" o "director de curvas de regresión, lo que minimiza el ortogonal distancias entre los puntos y la línea (en lugar de un error vertical líneas en ángulo de 90 grados para el conjunto de la línea). He puesto una referencia a continuación para su lectura. Es largo pero muy accesible y esclarecedor.
Espero que esto ayude, Brenden
- Trevor Hastie. Director de Curvas y Superficies, tesis doctoral, Universidad de Stanford; 1984
Posiblemente también se refiere a los experimentos diseñados - si x es controlada por una cantidad que es parte del diseño experimental, se trata como determinista, mientras que y es el resultado, y es una cantidad aleatoria. x podría ser un continuo cantidad (por ejemplo, la concentración de alguna droga), pero podría ser una 0/1 split (que conduce a un 2 prueba de t de muestras suponiendo que y es Gaussiano). Si x es un continuo cantidad puede haber algún error de medición, pero normalmente si este es mucho menor que la variabilidad de y, a continuación, esto es ignorado.