13 votos

Dados dos modelos de regresión lineal, el modelo podría funcionar mejor?

He tomado una máquina de aprendizaje del curso en mi universidad. En uno de los participes, esta pregunta se la hicieron.

Modelo 1 : $$ y = \theta x + \epsilon $$ Modelo 2 : $$ y = \theta x + \theta^2 x + \epsilon $$

Cual de los anteriores modelos de ajuste de datos mejor? (suponga que los datos pueden ser modelados mediante regresión lineal)

La respuesta correcta (de acuerdo con el profesor), es que ambos modelos funcionan igualmente bien. Sin embargo, creo que el primer modelo sería un mejor ajuste.

Esta es la razón detrás de mi respuesta. El segundo modelo, que puede escribirse como $ \alpha x + \epsilon $, $\alpha = \theta + \theta^2$ no sería el mismo que el primer modelo. $\alpha$ es de hecho una parábola, y por lo tanto tiene un valor mínimo ($ -0.25 $ en este caso). Ahora bien, debido a esto, el rango de $ \theta $ en el primer modelo, es mayor que el rango de $ \alpha $ en el segundo modelo. Por lo tanto, si los datos fue tal, que el mejor ajuste tenía una inclinación de menos de $-0.25$, el segundo modelo que iba a realizar muy mal como en comparación con la primera. Sin embargo, en el caso de que la pendiente de el mejor ajuste fue mayor que $-0.25$, ambos modelos funcionan igualmente bien.

Así es que la primera mejor, o ambos sean el mismo?

9voto

Ryan R Puntos 155

El modelo 2 se puede escribir como: $$y=(\theta + \theta^{2}) x+\epsilon=\beta x+\epsilon.$$ Esto parece similar al modelo 1, sólo con la notación diferente para el hyperparameters ($\theta, \beta $). Sin embargo, para el modelo 1, podemos escribir
$$\hat{\theta}=(X^{'}X)^{-1}X^{'}y.$$

Pero dado que en el modelo 2, tenemos que $$\beta=\theta + \theta^{2},$$ entonces, como usted menciona, de hecho, el rango de $\hat{\beta}$ debe pertenecer a $[-0.25,+\infty]$$\theta \in R$. Lo que llevará a diferencia de estos 2 modelos.

Así, en el modelo 2 se están limitando su coeficiente de estimación a diferencia del modelo 1. Para hacer esto más claro, cabe señalar que en el modelo 1, $\hat{\theta}$ se obtiene a través de la minimización de la plaza de la función de pérdida $$\hat{\theta}=\arg\min_{\theta\in{R}} \ \ (y-X\theta)^{'}(y-X\theta)=(X^{'}X)^{-1}X^{'}y.$$ Sin embargo, en el modelo 2 la estimación se obtiene a través de $$\hat{\beta}=\arg\min_{\beta\geq-0.25} \ \ (y-X\beta)^{'}(y-X\beta)$$ lo que podría conducir a un resultado diferente.

1voto

akeenlogician Puntos 66

Seguro que no entiendo tu razonamiento. Si usted toma:

$$y = \alpha x+\epsilon$$ and $$y = \theta x + \epsilon$$

y la estimación de $\alpha$ $\theta$ utilizando una regresión lineal simple, usted conseguirá el $\alpha$=$\theta$. Por otra parte, dado que la metodología es exactamente el mismo, no hay diferencia en el $R^2$ valor que se obtendría en cualquier ecuación. El valor subyacente de $\theta$ en la primera ecuación, por supuesto, ser diferentes, ya que $\alpha = \theta + \theta^2$, pero esto no tiene nada que ver con el ajuste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X