24 votos

Diferencia entre análisis de regresión y ajuste de curvas

¿Alguien podría por favor explicarme la diferencia real entre el análisis de regresión y el ajuste de curvas (lineal y no lineal), con un ejemplo si es posible?

Parece que ambos intentan encontrar una relación entre dos variables (dependiente vs independiente) y luego determinar el parámetro (o coeficiente) asociado con los modelos propuestos. Por ejemplo, si tengo un conjunto de datos como:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

¿Podría alguien sugerir una fórmula de correlación entre estas dos variables? Estoy teniendo dificultades para entender la diferencia entre estos dos enfoques. Si prefieres apoyar tu respuesta con otros conjuntos de datos, está bien ya que ese parece ser difícil de ajustar (quizás solo para mí).

El conjunto de datos anterior representa los ejes $x$ y $y$ de una curva de característica operativa del receptor (ROC), donde $y$ es la tasa de verdaderos positivos (TPR) y $x$ es la tasa de falsos positivos (FPR).

Estoy intentando ajustar una curva, o hacer un análisis de regresión según mi pregunta original, aún no estoy seguro, entre estos puntos para estimar el TPR para un FPR particular (o viceversa).

Primero, ¿es científicamente aceptable encontrar una función de ajuste de curvas entre dos variables independientes (TPR y FPR)?

Segundo, ¿es científicamente aceptable encontrar una función si sé que las distribuciones de los casos negativos y positivos reales no son normales?

1 votos

Los términos son utilizados de manera diferente por diferentes personas y en diferentes contextos. ¿Puedes enlazar o proporcionar un ejemplo donde la gente esté distinguiendo entre ellos?

0 votos

Eso es lo que estoy tratando de descubrir, cómo son diferentes y cómo puedo distinguir entre ellos.

1 votos

Lo suficientemente justo, ¿pero alguien te dijo que debían ser diferentes?

28voto

Nick Cox Puntos 22819

Dudo que haya una distinción clara y consistente en las ciencias y campos orientados hacia la estadística entre la regresión y el ajuste de curvas.

La regresión sin calificación implica regresión lineal y estimación de mínimos cuadrados. Eso no descarta otros sentidos más amplios: de hecho, una vez que permites la regresión logística, de Poisson, binomial negativa, etc., etc., se hace más difícil ver qué modelado no es regresión en algún sentido.

El ajuste de curvas sugiere literalmente una curva que se puede trazar en un plano o al menos en un espacio de baja dimensión. La regresión no está tan limitada y puede predecir superficies en un espacio de varias dimensiones.

El ajuste de curvas puede o no utilizar regresión lineal y/o mínimos cuadrados. Podría referirse a ajustar un polinomio (serie de potencias) o un conjunto de términos seno y coseno o de alguna otra manera realmente calificar como regresión lineal en el sentido clave de ajustar una forma funcional lineal en los parámetros. De hecho, el ajuste de curvas cuando la regresión es no lineal también es regresión.

El término ajuste de curvas podría usarse en un sentido despectivo, derogatorio, depreciativo o despectivo ("¡eso es solo ajuste de curvas!") o (casi lo contrario) podría referirse a ajustar una curva específica cuidadosamente elegida con una justificación física (biológica, económica, lo que sea) específica o adaptada para que coincida con ciertos tipos de comportamientos iniciales o límites particulares (por ejemplo, siempre ser positiva, limitada en una o ambas direcciones, monótona, con una inflexión, con un punto de inflexión, oscilatoria, etc.).

Uno de los varios problemas difusos aquí es que la misma forma funcional puede ser en el mejor de los casos empírica en algunas circunstancias y excelente teoría en otras. Newton enseñó que las trayectorias de los proyectiles pueden ser parabólicas, y por lo tanto naturalmente ajustadas por cuadráticas, mientras que una cuadrática ajustada a la dependencia de la edad en las ciencias sociales a menudo es solo un apaño que coincide con cierta curvatura en los datos. La decadencia exponencial es una buena aproximación para los isótopos radiactivos y una suposición a veces no muy loca para la forma en que los valores de la tierra disminuyen con la distancia desde un centro.

No te doy ninguna suposición explícita en tu ejemplo. Gran parte del punto aquí es que con un conjunto muy pequeño de datos y absolutamente ninguna información sobre qué son las variables o cómo se espera que se comporten, podría ser irresponsable o tonto sugerir una forma de modelo. ¡Quizás los datos deberían aumentar bruscamente desde (0, 0) y luego acercarse a (1, 1), o tal vez algo más. ¡Tú nos dices!

Nota. Tanto la regresión como el ajuste de curvas no se limitan a predictores únicos o parámetros únicos (coeficientes).

2 votos

"Curve-fitting" connota algo a-teórico (por ejemplo, lowess) para mí. A veces, los economistas desprecian el ajuste de funciones a-teóricas como 'trazado', que suena similar a algunos usos de curve-fitting. Creo que tiene tanto ventajas como desventajas, cuando se entiende correctamente. Sin embargo, es difícil saber cómo alguien quiso decir los términos de manera distinta sin más contexto.

1 votos

@gung Creo que hay un uso similar, parte jocoso, parte serio, en varias ciencias naturales (y no naturales). Uno de los problemas es que, dados suficientes parámetros, necesariamente tienes mucho margen de maniobra. Me recuerda a los modelos de series temporales que permiten no solo ARIMA, sino también términos sinusoidales y pasos, rampas y picos donde los datos lo sugieren.

0 votos

Estoy de acuerdo con @gung, el ajuste de curvas tiene una connotación más no paramétrica, al menos para mí.

8voto

AusTravel Puntos 6

Además de la excelente respuesta de @NickCox (+1), quería compartir mi impresión subjetiva sobre este tema de terminología algo difuso. Creo que una diferencia bastante sutil entre los dos términos radica en lo siguiente. Por un lado, regresión a menudo, si no siempre, implica una solución analítica (la referencia a regresores implica determinar sus parámetros, de ahí mi argumento sobre la solución analítica). Por otro lado, ajuste de curvas no necesariamente implica producir una solución analítica y en mi opinión a menudo puede ser y se utiliza como un enfoque exploratorio.

2 votos

¿No se puede usar algo con una solución analítica también con propósitos exploratorios? No entiendo la oposición que estás planteando.

0 votos

@amoeba: Las soluciones analíticas ciertamente se pueden utilizar también para la investigación exploratoria. Sin embargo, el punto que estoy haciendo es sobre la esencia implícita más popular de los términos en cuestión.

0voto

FredG Puntos 1

Dado que ya parece haber un amplio conjunto de explicaciones sobre Análisis de Regresión vs Ajuste de Curvas, dejaré eso así. Sin embargo, hay una pregunta adicional oculta en la pregunta original del OP. Hay muy pocos datos dados, pero preguntó si alguien podría sugerir una fórmula de correlación, así que añadiré mi opinión.

No tengo experiencia con Curvas ROC, etc., sin embargo, trazar los datos da una fuerte indicación de que es un Sistema de Primer Orden $\frac{1}{\tau\centerdot s + 1}$ (en términos de Laplace) que responde a un Entrada de Escalón $\frac{1}{s}$ (en términos de Laplace). Obviamente, la constante de tiempo es muy pequeña, produciendo un estado estacionario extremadamente rápido. Supondré que la variable dependiente es 'y', y la variable independiente es 't'.

Una ecuación general para un proceso de primer orden es $y=A[1 – B \centerdot e^ {-\frac {t}{\tau}}]$, donde $\tau$ es la constante de tiempo del proceso (donde 1 $\centerdot\tau$ genera aproximadamente el 63.2% de la respuesta).

Usando tus datos, $@t=\infty, y=1$, por lo tanto, $A=1$. El modelo general ahora se convierte en $y=1 – B \centerdot e^ {-\frac {t}{\tau}}$.

Además, $@t=0, y=0$, por lo tanto $B=1$. El modelo es ahora $y=1 – e^ {-\frac {t}{\tau}}$.

Regresando (o ajustando la curva) tus datos a esta ecuación, obtenemos $y=1 – e^ {-\frac {t}{0.0023}}$. Específicamente, esto significa que en $\approx 0.0023\space sec$, el 63.2% de la respuesta ha sido completada.

introducir descripción de la imagen aquí

Tengo la ventaja de no conocer tu ruido específico o la varianza de tus datos, así que me tomé la libertad de ajustar una modelo de 2 parámetros para ver si reduce el error. Esto produjo el modelo $y=1 – 0.99972 \centerdot e^ {-\frac {t}{0.0023}}$.

introducir descripción de la imagen aquí

Recomendaría tomar más datos en la porción inicial de la respuesta, y ignorar el muestreo después de que las líneas de respuesta estén estables, ya que no hay nada interesante para modelar en estado estacionario. Además, el argumento de $exp()$ se vuelve extremadamente alto al avanzar hacia el estado estacionario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X