86 votos

La línea de mejor ajuste no parece ser adecuada. ¿Por qué?

Echa un vistazo a este gráfico de Excel:

el gráfico

La línea de mejor ajuste de 'sentido común' parecería ser una línea casi vertical directamente a través del centro de los puntos (editada a mano en rojo). Sin embargo, la línea de tendencia lineal como decidió Excel es la línea negra diagonal mostrada.

  1. ¿Por qué Excel ha producido algo que (a simple vista) parece estar equivocado?
  2. ¿Cómo puedo producir una línea de mejor ajuste que se vea un poco más intuitiva (es decir, algo como la línea roja)?

Actualización 1. Una hoja de cálculo de Excel con datos y gráfico está disponible aquí: datos de ejemplo, CSV en Pastebin. ¿Están disponibles las técnicas de regresión tipo1 y tipo2 como funciones de Excel?

Actualización 2. Los datos representan un parapente ascendiendo en una térmica mientras deriva con el viento. El objetivo final es investigar cómo varía la fuerza y dirección del viento con la altura. Soy ingeniero, NO matemático ni estadístico, por lo que la información en estas respuestas me ha dado muchas más áreas de investigación.


Este es un hilo interesante y sería una lástima que los datos se perdieran y alguien en el futuro no pudiera reproducir los ejemplos, así que lo estoy añadiendo como un comentario aquí (que son los datos de el siguiente enlace).

"lon","lat"
-0.713917,53.9351
-0.712917,53.93505
-0.712617,53.934983
-0.712333,53.9349
-0.7122,53.93475
-0.71215,53.934567
-0.712233,53.9344
-0.712483,53.934233
-0.712817,53.934167
-0.713217,53.934167
-0.713617,53.934267
-0.7141,53.934733
-0.714133,53.935
-0.71395,53.935283
-0.713617,53.9355
-0.713233,53.935617
-0.712767,53.935617
-0.712383,53.9355
-0.712183,53.9353
-0.712367,53.934883
-0.712717,53.934767
-0.713133,53.9348
-0.713583,53.934917
-0.713867,53.93515
-0.714017,53.935433
-0.7139,53.935717
-0.7136,53.935933
-0.71325,53.936067
-0.712833,53.936133
-0.7124,53.936117
-0.712083,53.935983
-0.7119,53.935767
-0.711917,53.935567
-0.7121,53.935383
-0.7124,53.935283
-0.712733,53.93525
-0.713117,53.935267
-0.7135,53.93535
-0.713817,53.935517
-0.71405,53.935733
-0.71415,53.935983
-0.7141,53.93625
-0.7139,53.9365
-0.713567,53.936667
-0.713183,53.936767
-0.712767,53.9368
-0.7124,53.9367
-0.712133,53.93655
-0.712033,53.936333
-0.712167,53.936167
-0.712383,53.936017
-0.712733,53.935917
-0.7132,53.93595
-0.713567,53.936067
-0.713867,53.936267
-0.714067,53.9365
-0.71415,53.936767
-0.714033,53.937033
-0.71375,53.937233
-0.7134,53.9374
-0.712967,53.93745
-0.71255,53.937433
-0.7122,53.937267
-0.712067,53.937033
-0.712117,53.9368
-0.712367,53.936617
-0.712733,53.936533
-0.713133,53.93655
-0.713467,53.93665
-0.71375,53.93685
-0.713933,53.937083
-0.71395,53.937367
-0.713767,53.937633
-0.713433,53.937833
-0.713033,53.937967
-0.712567,53.937967
-0.71215,53.937867
-0.711883,53.93765
-0.711817,53.937433
-0.711983,53.937233
-0.71265,53.937033
-0.713067,53.9371
-0.713683,53.93745
-0.713817,53.937983
-0.713633,53.938233
-0.7133,53.938433
-0.71285,53.938533
-0.71205,53.938333
-0.71185,53.938117
-0.711867,53.937867
-0.712067,53.9377
-0.712417,53.937583
-0.712833,53.937567
-0.713233,53.937667
-0.713567,53.937883
-0.7137,53.938417
-0.713467,53.93865
-0.713117,53.938817
-0.712683,53.938917000000004
-0.71225,53.938867
-0.711917,53.938717
-0.711767,53.938483
-0.711883,53.938267
-0.712133,53.9381
-0.712483,53.938017
-0.713283,53.93815
-0.713567,53.938333
-0.7138,53.938567
-0.713683,53.9391
-0.713417,53.9393
-0.71305,53.939433
-0.7126,53.939483
-0.7122,53.9394
-0.711917,53.93925
-0.711783,53.93905
-0.7118,53.938817
-0.711967,53.938667
-0.712217,53.938533
-0.712567,53.938433
-0.712933,53.93845
-0.7133,53.938567
-0.713583,53.93875
-0.71375,53.939

3voto

kentaromiura Puntos 3361

Su confunde la regresión de mínimos cuadrados ordinarios (OLS) (que minimiza la suma de los cuadrados de la desviación sobre los valores predichos, (observado-predicho)^2) y la regresión del eje mayor (que minimiza la suma de los cuadrados de la distancia perpendicular entre cada punto y la línea de regresión, a veces esto se refiere como regresión de Tipo II, regresión ortogonal o regresión de componentes principales estandarizados).

Si desea comparar los dos enfoques en R, simplemente consulte

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # regresión de mínimos cuadrados ordinarios

aquí va una descripción de la imagen

plot(fit,method="MA") # regresión del eje mayor

aquí va una descripción de la imagen

Lo que encuentra más intuitivo (su línea roja) es simplemente la regresión del eje mayor, que visualmente hablando es de hecho la que parece más lógica, ya que minimiza la distancia perpendicular a sus puntos. La regresión OLS solo parecerá minimizar la distancia perpendicular a sus puntos si la variable x y la variable y están en la misma escala de medición y/o tienen la misma cantidad de error (esto se puede ver simplemente basándose en el teorema de Pitágoras). En su caso, su variable y tiene mucha más dispersión, de ahí la diferencia...

0voto

user177142 Puntos 11

La respuesta de PCA es la mejor porque creo que es lo que deberías estar haciendo dada la descripción de tu problema, sin embargo la respuesta de PCA podría confundir PCA y regresión, que son cosas totalmente diferentes. Si quieres extrapolar este conjunto de datos en particular entonces necesitas hacer regresión, y probablemente quieras hacer regresión de Deming (que supongo a veces se conoce como Tipo II, nunca había escuchado esta descripción). Sin embargo, si quieres descubrir cuáles son las direcciones más importantes (eigenvectores) y tener una métrica de su impacto relativo en el conjunto de datos (eigenvalores) entonces PCA es el enfoque correcto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X