5 votos

R al cuadrado siempre superior a 1

Estoy intentando implementar un algoritmo que resuelva un problema de regresión lineal con la siguiente función objetivo (LASSO):

$$\min_\beta \frac{1}{2}||y-X\beta||_2^2 + \lambda ||\beta||_1$$

para distintos valores de $\lambda$ bajo varias restricciones que se añaden o cambian de vez en cuando. $y$ y $X$ son mis datos de entrenamiento que han sido estandarizados para tener media 0 y normalizados para tener unidad $l_2$ -norm. Para todos los problemas de regresión que resuelvo (recuerde que añado algunas restricciones de vez en cuando), quiero calcular una fuera de muestra $R^2$ en un conjunto de validación para comparar los modelos. El conjunto de validación también se ha normalizado, aunque yo utilicé la media del conjunto de entrenamiento y el conjunto de validación no estaba normalizado.

Cuando calculo el $R^2$ de la siguiente manera recibo valores superiores a 1:

$$R^2= \frac{\sum_{i=1}^n(\hat{y_i}-\bar{y_i})^2}{\sum_{i=1}^n (y_i - \bar{y_i})^2}$$

Dado que el conjunto de entrenamiento se estandarizó para tener 0 de media y la media del conjunto de entrenamiento se utiliza para el cálculo de $R^2$ el término anterior se simplifica a:

$$R^2= \frac{\sum_{i=1}^n(\hat{y_i})^2}{\sum_{i=1}^n (y_i )^2}$$

Todos mis $R^2$ son superiores a 1 (entre 1,5 y 1,6). Incluso si utilizo el mismo cálculo en el conjunto de entrenamiento, el valor supera 1 (tenga en cuenta que en el caso del conjunto de entrenamiento el denominador es igual a 1, ya que el conjunto de entrenamiento se normalizó para tener unidad $l_2$ -norm.

Tengo la sensación de que algo va totalmente mal aquí, pero no he conseguido encontrar el error. Pensé que tal vez este cálculo estándar de $R^2$ no funciona para mi función objetivo LASSO. Si ese es el caso, ¿cuál sería la forma correcta de calcular $R^2$ ¿Aquí?

0 votos

Posible duplicado con esto stats.stackexchange.com/questions/246347/ ?

0 votos

Al parecer, el usuario tenía una pregunta similar. Sin embargo, no había respuesta sobre cómo calcular $R^2$ en el caso de los modelos penalizados.

13voto

mat_geek Puntos 1367

R cuadrado es el porcentaje de variación explicado por el modelo dividido por la variación total, donde la variación total es igual al porcentaje de variación explicado por el modelo + la variación debida al error. Dado que el segundo término del denominador no puede ser negativo, R cuadrado siempre está entre 0 y 1. Todas las estimaciones adecuadas de R cuadrado también están entre 0 y 1. Por lo tanto, debe haber algún problema con la fórmula que está utilizando o con los y_i s ajustados.

7voto

chilicuil Puntos 93

Tu error no viene de poner la media a cero, sino del cómputo general de $R^2$ que no es el que tú escribiste. Usando tu notación tenemos varios valores:

  • $SS_{tot} = \sum_i (y_i-\bar{y})^2$ suma total de cuadrados
  • $SS_{reg} = \sum_i (\hat{y}_i-\bar{y})^2$ suma de cuadrados explicada
  • $SS_{res} = \sum_i (y_i-\hat{y}_i)^2$ suma residual de cuadrados

Ahora la fórmula general es $R^2 = 1- \frac{SS_{res}}{SS_{tot}}$ en función de la relación entre la varianza no explicada y la varianza total de los datos.

En $SS_{res} + SS_{reg} = SS_{tot}$ entonces la fórmula general es equivalente a la que escribiste: $R^2 = \frac{SS_{reg}}{SS_{tot}}$ que puede considerarse como la relación entre la varianza explicada y la varianza total.

La condición $SS_{res} + SS_{reg} = SS_{tot}$ es cierto, por ejemplo, en la regresión lineal no regularizada, pero posiblemente no lo sea con la penalización LASSO.

0 votos

Eso es lo que yo pensaba. ¿Hay alguna sugerencia sobre cómo calcular $R^2$ en un modelo regularizado?

0 votos

¿Qué problema hay en utilizar la primera fórmula (más general)?

0 votos

El que sugieres no puede utilizarse sin una interceptación, que yo sepa. Así que me pregunto qué debo hacer cuando mi modelo no permite un término constante (es decir, siempre incluye el origen).

0voto

Rosstified Puntos 2327

Se trata de una cuestión interesante, véase este y este para dos entradas relacionadas. Por lo que he entendido de la literatura, y a juzgar por las respuestas/comentarios a los posts citados anteriormente, el cálculo y la interpretación del coeficiente de determinación y el cálculo de los errores estándar en los enfoques de estimación penalizada son actualmente problemas abiertos.

Así que mi respuesta actual a tu pregunta es: simplemente deja de usar $R^2$ y ajustado $R^2$ en problemas de tipo lazo. Tal vez, las pruebas de bondad de ajuste puedan ser una alternativa viable para $R^2$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X