86 votos

La línea de mejor ajuste no parece ser adecuada. ¿Por qué?

Echa un vistazo a este gráfico de Excel:

el gráfico

La línea de mejor ajuste de 'sentido común' parecería ser una línea casi vertical directamente a través del centro de los puntos (editada a mano en rojo). Sin embargo, la línea de tendencia lineal como decidió Excel es la línea negra diagonal mostrada.

  1. ¿Por qué Excel ha producido algo que (a simple vista) parece estar equivocado?
  2. ¿Cómo puedo producir una línea de mejor ajuste que se vea un poco más intuitiva (es decir, algo como la línea roja)?

Actualización 1. Una hoja de cálculo de Excel con datos y gráfico está disponible aquí: datos de ejemplo, CSV en Pastebin. ¿Están disponibles las técnicas de regresión tipo1 y tipo2 como funciones de Excel?

Actualización 2. Los datos representan un parapente ascendiendo en una térmica mientras deriva con el viento. El objetivo final es investigar cómo varía la fuerza y dirección del viento con la altura. Soy ingeniero, NO matemático ni estadístico, por lo que la información en estas respuestas me ha dado muchas más áreas de investigación.


Este es un hilo interesante y sería una lástima que los datos se perdieran y alguien en el futuro no pudiera reproducir los ejemplos, así que lo estoy añadiendo como un comentario aquí (que son los datos de el siguiente enlace).

"lon","lat"
-0.713917,53.9351
-0.712917,53.93505
-0.712617,53.934983
-0.712333,53.9349
-0.7122,53.93475
-0.71215,53.934567
-0.712233,53.9344
-0.712483,53.934233
-0.712817,53.934167
-0.713217,53.934167
-0.713617,53.934267
-0.7141,53.934733
-0.714133,53.935
-0.71395,53.935283
-0.713617,53.9355
-0.713233,53.935617
-0.712767,53.935617
-0.712383,53.9355
-0.712183,53.9353
-0.712367,53.934883
-0.712717,53.934767
-0.713133,53.9348
-0.713583,53.934917
-0.713867,53.93515
-0.714017,53.935433
-0.7139,53.935717
-0.7136,53.935933
-0.71325,53.936067
-0.712833,53.936133
-0.7124,53.936117
-0.712083,53.935983
-0.7119,53.935767
-0.711917,53.935567
-0.7121,53.935383
-0.7124,53.935283
-0.712733,53.93525
-0.713117,53.935267
-0.7135,53.93535
-0.713817,53.935517
-0.71405,53.935733
-0.71415,53.935983
-0.7141,53.93625
-0.7139,53.9365
-0.713567,53.936667
-0.713183,53.936767
-0.712767,53.9368
-0.7124,53.9367
-0.712133,53.93655
-0.712033,53.936333
-0.712167,53.936167
-0.712383,53.936017
-0.712733,53.935917
-0.7132,53.93595
-0.713567,53.936067
-0.713867,53.936267
-0.714067,53.9365
-0.71415,53.936767
-0.714033,53.937033
-0.71375,53.937233
-0.7134,53.9374
-0.712967,53.93745
-0.71255,53.937433
-0.7122,53.937267
-0.712067,53.937033
-0.712117,53.9368
-0.712367,53.936617
-0.712733,53.936533
-0.713133,53.93655
-0.713467,53.93665
-0.71375,53.93685
-0.713933,53.937083
-0.71395,53.937367
-0.713767,53.937633
-0.713433,53.937833
-0.713033,53.937967
-0.712567,53.937967
-0.71215,53.937867
-0.711883,53.93765
-0.711817,53.937433
-0.711983,53.937233
-0.71265,53.937033
-0.713067,53.9371
-0.713683,53.93745
-0.713817,53.937983
-0.713633,53.938233
-0.7133,53.938433
-0.71285,53.938533
-0.71205,53.938333
-0.71185,53.938117
-0.711867,53.937867
-0.712067,53.9377
-0.712417,53.937583
-0.712833,53.937567
-0.713233,53.937667
-0.713567,53.937883
-0.7137,53.938417
-0.713467,53.93865
-0.713117,53.938817
-0.712683,53.938917000000004
-0.71225,53.938867
-0.711917,53.938717
-0.711767,53.938483
-0.711883,53.938267
-0.712133,53.9381
-0.712483,53.938017
-0.713283,53.93815
-0.713567,53.938333
-0.7138,53.938567
-0.713683,53.9391
-0.713417,53.9393
-0.71305,53.939433
-0.7126,53.939483
-0.7122,53.9394
-0.711917,53.93925
-0.711783,53.93905
-0.7118,53.938817
-0.711967,53.938667
-0.712217,53.938533
-0.712567,53.938433
-0.712933,53.93845
-0.7133,53.938567
-0.713583,53.93875
-0.71375,53.939

60voto

mkt Puntos 688

La respuesta probablemente tiene que ver con la forma en que estás juzgando mentalmente la distancia a la línea de regresión. La regresión estándar (Tipo 1) minimiza el error cuadrado, donde el error se calcula en base a la distancia vertical a la línea.

La regresión Tipo 2 puede ser más análoga a tu juicio sobre la mejor línea. En este caso, el error cuadrado minimizado es la distancia perpendicular a la línea. Hay varias consecuencias a esta diferencia. Una importante es que si intercambias los ejes X e Y en tu gráfico y vuelves a ajustar la línea, obtendrás una relación diferente entre las variables para la regresión Tipo 1. Para la regresión Tipo 2, la relación se mantiene igual.

Tengo la impresión de que hay un debate considerable sobre cuándo usar la regresión Tipo 1 vs la regresión Tipo 2, así que sugiero leer cuidadosamente sobre las diferencias antes de decidir cuál aplicar. La regresión Tipo 1 se recomienda frecuentemente en casos donde uno de los ejes está controlado experimentalmente, o al menos medido con mucho menos error que el otro. Si estas condiciones no se cumplen, la regresión Tipo 1 sesgará las pendientes hacia 0 y por lo tanto se recomienda la regresión Tipo 2. Sin embargo, con suficiente ruido en ambos ejes, al parecer la regresión Tipo 2 tiende a sesgar las pendientes hacia 1. Warton et al. (2006) y Smith (2009) son buenas fuentes para comprender el debate.

También ten en cuenta que hay varios métodos sutilmente diferentes que caen dentro de la amplia categoría de la regresión Tipo 2 (Eje Mayor, Eje Mayor Reducido y Eje Mayor Estándar), y que la terminología sobre los métodos específicos es inconsistente.

Warton, D. I., I. J. Wright, D. S. Falster y M. Westoby. 2006. Métodos de ajuste de línea bivariada para alometría. Rev. Biol. 81: 259-291. doi:10.1017/S1464793106007007

Smith, R. J. 2009. Sobre el uso y mal uso del eje mayor reducido para ajuste de línea. Am. J. Phys. Anthropol. 140: 476-486. doi:10.1002/ajpa.21090


EDICIÓN:

@amoeba señala que lo que estoy llamando regresión Tipo 2 arriba también se conoce como regresión ortogonal; este término puede ser el más apropiado. Como mencioné anteriormente, la terminología en esta área es inconsistente, por lo que se requiere cuidado adicional.

34voto

k s Puntos 101

La pregunta que Excel intenta responder es: "Suponiendo que y depende de x, ¿qué línea predice mejor y?". La respuesta es que debido a las enormes variaciones en y, ninguna línea podría ser particularmente buena, y lo que Excel muestra es lo mejor que se puede hacer.

Si tomas tu línea roja propuesta, y la continúas hasta x = -0.714 y x = -0.712, verás que sus valores están muy, muy lejos del gráfico, y están a una enorme distancia de los valores correspondientes de y.

La pregunta que Excel responde no es "¿qué línea está más cerca de los puntos de datos?", sino "¿qué línea es la mejor para predecir los valores de y a partir de los valores de x?", y lo hace correctamente.

13voto

Ankur Loriya Puntos 160

No quiero agregar nada a las otras respuestas, pero sí quiero decir que te has confundido por una mala terminología, en particular el término "línea de mejor ajuste" que se utiliza en algunos cursos de estadísticas.

Intuitivamente, una "línea de mejor ajuste" se parecería a tu línea roja. Pero la línea producida por Excel no es una "línea de mejor ajuste"; ni siquiera está intentando serlo. Es una línea que responde a la pregunta: dado el valor de x, ¿cuál es mi mejor predicción posible para y? o alternativamente, ¿cuál es el valor promedio de y para cada valor de x?

Observa la asimetría aquí entre x e y; el uso del nombre "línea de mejor ajuste" oculta esto. Lo mismo hace el uso de "trendline" en Excel.

Está explicado muy bien en el siguiente enlace:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm

Tal vez desees algo más parecido a lo que se llama "Tipo 2" en la respuesta anterior, o "Línea SD" en la página del curso de estadísticas de Berkeley.

10voto

Parte del problema óptico proviene de las diferentes escalas: si utilizas la misma escala en ambos ejes, ya se verá diferente.

En otras palabras, puedes hacer que la mayoría de estas líneas de 'mejor ajuste' parezcan 'poco intuitivas' al extender la escala de un eje.

4voto

sirkitree Puntos 121

Algunas personas han señalado que el problema es visual: el escalado gráfico utilizado produce información engañosa. Más específicamente, el escalado de "lon" es tal que parece ser una espiral cerrada lo que sugiere que la línea de regresión proporciona un ajuste deficiente (una evaluación con la que estoy de acuerdo, la línea roja que dibuja proporcionaría errores cuadrados más bajos si los datos tuvieran la forma presentada).

A continuación, proporciono un diagrama de dispersión creado en Excel con el escalado para "lon" alterado para que no produzca la espiral cerrada en su diagrama de dispersión. Con este cambio, la línea de regresión ahora proporciona un ajuste visual mejor y creo que ayuda a demostrar cómo el escalado en el diagrama de dispersión original proporcionó una evaluación engañosa del ajuste.

Creo que la regresión funciona bien aquí. No creo que sea necesario un análisis más complejo.

introducir descripción de la imagen aquí

Para aquellos interesados, he trazado los datos usando una herramienta de mapeo y muestro la regresión ajustada a los datos. Los puntos rojos son los datos registrados y el verde es la línea de regresión.

introducir descripción de la imagen aquí

Y aquí están los mismos datos en un diagrama de dispersión con la línea de regresión; aquí "lat" se trata como la variable dependiente y los puntajes de "lat" se invierten para ajustarse al perfil geográfico.

introducir descripción de la imagen aquí

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X