22 votos

¿Es adecuado el valor R-cuadrado para comparar modelos?

Intento identificar el mejor modelo para predecir los precios de los automóviles, utilizando los precios y las características disponibles en los sitios de anuncios clasificados de automóviles.

Para ello he utilizado un par de modelos de la biblioteca scikit-learn y modelos de redes neuronales de pybrain y neurolab. El enfoque que he utilizado hasta ahora es ejecutar una cantidad fija de datos a través de algunos modelos (algoritmos de aprendizaje automático) y comparar allí $R^2$ que se calculó con el módulo de métricas de scikit-learn.

  1. Es $R^2$ ¿un buen método para comparar el rendimiento de distintos modelos?
  2. Aunque obtuve resultados bastante aceptables para modelos como la red elástica y los bosques aleatorios, obtuve resultados muy pobres. $R^2$ para los modelos de redes neuronales $R^2$ ¿un método adecuado para evaluar las redes neuronales (o los métodos no lineales)?

24voto

nasib Puntos 1

Creo que la parte crucial a tener en cuenta para responder a su pregunta es

Intento identificar el mejor modelo para predecir los precios de los automóviles

porque esta afirmación implica algo sobre por qué desea utilizar el modelo. La elección y evaluación del modelo deben basarse en lo que se quiere conseguir con los valores ajustados.

En primer lugar, recapitulemos qué $R^2$ hace : Calcula una medida escalada basada en la función de pérdida cuadrática, que seguro que ya conoce. Para verlo, defina residual $e_i = y_i - \hat{y}_i$ para su i-ésima observación $y_i$ y el valor ajustado correspondiente $\hat{y}_i$ . Utilizando la notación conveniente $SSR := \sum_{i=1}^Ne_i^2$ , $SST:=\sum_{i=1}^N(y_i - \bar{y})^2$ , $R^2$ se define simplemente como $R^2 = 1 - SSR/SST$ .

En segundo lugar, veamos que usando $R^2$ para los medios de elección/evaluación de modelos . Supongamos que elegimos entre un conjunto de predicciones $\bar{Y}_M$ que se generaron utilizando un modelo $M:M \in \mathcal{M}$ donde $\mathcal{M}$ es la colección de modelos considerados (en su ejemplo, esta colección contendría redes neuronales, bosques aleatorios, redes elásticas, ...). Dado que $SST$ permanecerá constante entre todos los modelos, si se minimiza $R^2$ elegirá exactamente el modelo que minimice $SSR$ . En otras palabras, elegirá $M \in \mathcal{M}$ ¡que produzca la mínima pérdida de error cuadrático!

En tercer lugar, consideremos por qué $R^2$ o equivalentemente, $SSR$ podría ser interesante para la elección del modelo . Tradicionalmente, la pérdida cuadrática ( $L^2$ ) se utiliza por tres razones: (1) Es más fácil de calcular que las Desviaciones Mínimas Absolutas (LAD, la $L^1$ norma) porque no aparece ningún valor absoluto en el cálculo, (2) castiga los valores ajustados que están muy alejados del valor real mucho más que LAD (en un sentido cuadrático en lugar de absoluto) y por lo tanto se asegura de que tenemos menos valores atípicos extremos, (3) es simétrico : Sobrevalorar o infravalorar el precio de un coche se considera igual de malo.

Cuarto (y último), veamos si esto es lo que necesita para sus predicciones. El punto que puede resultar más interesante es (3) del último párrafo. Supongamos que quiere adoptar una postura neutral y no es ni comprador ni vendedor de un coche. Entonces, $R^2$ puede tener sentido: usted es imparcial y desea castigar las desviaciones hacia la sobrevaloración o la infravaloración de forma exactamente idéntica. Lo mismo ocurre si sólo desea modelizar la relación entre las cantidades sin querer predecir valores no observados. Supongamos ahora que trabaja para un consumidor/comprador con un presupuesto ajustado: En esta situación, es posible que quiera castigar la sobreestimación del precio en un sentido cuadrático, pero la infraestimación en un sentido $L^p$ sentido, donde $1 \leqslant p <2$ . Para $p=1$ castigarías en un sentido de desviación absoluta. Se puede considerar que esto refleja los objetivos y las intenciones del comprador, y sesgar la estimación a la baja podría interesarle. A la inversa, se podría dar la vuelta al pensamiento si se modelaran las predicciones de precios para el vendedor. Huelga decir que cualquier norma $L^p$ podría elegirse para reflejar las preferencias del modelador/del agente para el que modela. También puede castigar fuera del $L^p$ norma por completo, y utilizar una pérdida constante, exponencial o logarítmica en un lado y una pérdida diferente en el otro.

En resumen, la elección/evaluación del modelo no puede considerarse independientemente de su objetivo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X