Creo que la parte crucial a tener en cuenta para responder a su pregunta es
Intento identificar el mejor modelo para predecir los precios de los automóviles
porque esta afirmación implica algo sobre por qué desea utilizar el modelo. La elección y evaluación del modelo deben basarse en lo que se quiere conseguir con los valores ajustados.
En primer lugar, recapitulemos qué $R^2$ hace : Calcula una medida escalada basada en la función de pérdida cuadrática, que seguro que ya conoce. Para verlo, defina residual $e_i = y_i - \hat{y}_i$ para su i-ésima observación $y_i$ y el valor ajustado correspondiente $\hat{y}_i$ . Utilizando la notación conveniente $SSR := \sum_{i=1}^Ne_i^2$ , $SST:=\sum_{i=1}^N(y_i - \bar{y})^2$ , $R^2$ se define simplemente como $R^2 = 1 - SSR/SST$ .
En segundo lugar, veamos que usando $R^2$ para los medios de elección/evaluación de modelos . Supongamos que elegimos entre un conjunto de predicciones $\bar{Y}_M$ que se generaron utilizando un modelo $M:M \in \mathcal{M}$ donde $\mathcal{M}$ es la colección de modelos considerados (en su ejemplo, esta colección contendría redes neuronales, bosques aleatorios, redes elásticas, ...). Dado que $SST$ permanecerá constante entre todos los modelos, si se minimiza $R^2$ elegirá exactamente el modelo que minimice $SSR$ . En otras palabras, elegirá $M \in \mathcal{M}$ ¡que produzca la mínima pérdida de error cuadrático!
En tercer lugar, consideremos por qué $R^2$ o equivalentemente, $SSR$ podría ser interesante para la elección del modelo . Tradicionalmente, la pérdida cuadrática ( $L^2$ ) se utiliza por tres razones: (1) Es más fácil de calcular que las Desviaciones Mínimas Absolutas (LAD, la $L^1$ norma) porque no aparece ningún valor absoluto en el cálculo, (2) castiga los valores ajustados que están muy alejados del valor real mucho más que LAD (en un sentido cuadrático en lugar de absoluto) y por lo tanto se asegura de que tenemos menos valores atípicos extremos, (3) es simétrico : Sobrevalorar o infravalorar el precio de un coche se considera igual de malo.
Cuarto (y último), veamos si esto es lo que necesita para sus predicciones. El punto que puede resultar más interesante es (3) del último párrafo. Supongamos que quiere adoptar una postura neutral y no es ni comprador ni vendedor de un coche. Entonces, $R^2$ puede tener sentido: usted es imparcial y desea castigar las desviaciones hacia la sobrevaloración o la infravaloración de forma exactamente idéntica. Lo mismo ocurre si sólo desea modelizar la relación entre las cantidades sin querer predecir valores no observados. Supongamos ahora que trabaja para un consumidor/comprador con un presupuesto ajustado: En esta situación, es posible que quiera castigar la sobreestimación del precio en un sentido cuadrático, pero la infraestimación en un sentido $L^p$ sentido, donde $1 \leqslant p <2$ . Para $p=1$ castigarías en un sentido de desviación absoluta. Se puede considerar que esto refleja los objetivos y las intenciones del comprador, y sesgar la estimación a la baja podría interesarle. A la inversa, se podría dar la vuelta al pensamiento si se modelaran las predicciones de precios para el vendedor. Huelga decir que cualquier norma $L^p$ podría elegirse para reflejar las preferencias del modelador/del agente para el que modela. También puede castigar fuera del $L^p$ norma por completo, y utilizar una pérdida constante, exponencial o logarítmica en un lado y una pérdida diferente en el otro.
En resumen, la elección/evaluación del modelo no puede considerarse independientemente de su objetivo.