7 votos

Regresión: varianza de las predicciones mucho más baja que la varianza del objetivo

Estoy usando no negativo lasso(sklearn) en un conjunto de datos con 1,5 MM de puntos de datos y 120 características. Es un bajo R2 (entorno de trabajo con ruidosos datos financieros), por lo $R^2$ es de alrededor de 10%. Lo que yo estoy más preocupado sin embargo, es que la desviación estándar de las predicciones es acerca de $\frac{1}{4}$ de la desviación estándar de la variable objetivo. Del mismo modo, mean(abs(destino)) / mean(abs(prevista)) es de alrededor de $\frac{1}{4}$.

¿Cómo puedo conseguir que la relación sea más cercana a 1? Estoy dispuesto a sacrificar algo de $R^2$ para lograr esto. Qué necesito para hacer otro tipo de regresión, transformar mi cuenta de alguna manera, o es que hay algo más que se puede hacer? En otras palabras, las predicciones son demasiado suave para mi aplicación.

Si es posible, me gustaría una sugerencia de cómo obtener resultados (predicciones) que son de tamaño similar a la de destino, mientras que todavía tiene similar (ahora mucho menor) $R^2$.

Tal vez debería usar diferentes de la función objetivo en lugar de min. suma de los cuadrados?

9voto

Christoph Hanck Puntos 4143

Mi respuesta se centrará en la línea de base OLS caso, pero la mecánica es similar a las técnicas como Lazo (aunque admito que no sé cómo $R^2$ se calcula para tales métodos). También, mi respuesta se refiere a que en la muestra de ajuste.

Recordemos que $R^2$ se define como (también recordar que la media de los valores ajustados es igual a la media de los $y$, $\bar y=\bar{\hat{y}}$) $$ R^2=\frac{(\hat y-\bar y)'(\hat y-\bar y)}{(y-\bar y)'(y-\bar y)}, $$ que podemos reescribir en la proporción de la varianza explicada de la varianza de la variable dependiente, $$ R^2=\frac{\frac{1}{n-1}\sum_i(\hat y_i-\bar y)^2}{\frac{1}{n-1}\sum_i( y_i-\bar y)^2}=\frac{\hat\sigma^2_{\hat y}}{\hat\sigma^2_{y}}, $$ Así que, cuando usted tiene un bajo $R^2$, que es equivalente a decir que la desviación estándar de las predicciones es menor que la desviación estándar de la variable objetivo. A fortiori, si "sacrificio" $R^2$, de que la relación sólo puede disminuir aún más.

Aquí hay un poco de gráfica de la ilustración, en la que tanto el $y_i$ (azul) y los valores ajustados (salmón) se proyecta sobre el eje, para un conjunto de datos en que $R^2$ es relativamente baja. Se observa que la variación de los valores ajustados es, como se esperaba, más pequeñas.

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X