Creo que la parte crucial a tener en cuenta para responder a su pregunta es
Intento identificar el mejor modelo para predecir los precios de los automóviles
porque esta afirmación implica algo sobre por qué desea utilizar el modelo. La elección y evaluación del modelo deben basarse en lo que se quiere conseguir con los valores ajustados.
En primer lugar, recapitulemos qué R2 hace : Calcula una medida escalada basada en la función de pérdida cuadrática, que seguro que ya conoce. Para verlo, defina residual ei=yi−ˆyi para su i-ésima observación yi y el valor ajustado correspondiente ˆyi . Utilizando la notación conveniente SSR:=∑Ni=1e2i , SST:=∑Ni=1(yi−ˉy)2 , R2 se define simplemente como R2=1−SSR/SST .
En segundo lugar, veamos que usando R2 para los medios de elección/evaluación de modelos . Supongamos que elegimos entre un conjunto de predicciones ˉYM que se generaron utilizando un modelo M:M∈M donde M es la colección de modelos considerados (en su ejemplo, esta colección contendría redes neuronales, bosques aleatorios, redes elásticas, ...). Dado que SST permanecerá constante entre todos los modelos, si se minimiza R2 elegirá exactamente el modelo que minimice SSR . En otras palabras, elegirá M∈M ¡que produzca la mínima pérdida de error cuadrático!
En tercer lugar, consideremos por qué R2 o equivalentemente, SSR podría ser interesante para la elección del modelo . Tradicionalmente, la pérdida cuadrática ( L2 ) se utiliza por tres razones: (1) Es más fácil de calcular que las Desviaciones Mínimas Absolutas (LAD, la L1 norma) porque no aparece ningún valor absoluto en el cálculo, (2) castiga los valores ajustados que están muy alejados del valor real mucho más que LAD (en un sentido cuadrático en lugar de absoluto) y por lo tanto se asegura de que tenemos menos valores atípicos extremos, (3) es simétrico : Sobrevalorar o infravalorar el precio de un coche se considera igual de malo.
Cuarto (y último), veamos si esto es lo que necesita para sus predicciones. El punto que puede resultar más interesante es (3) del último párrafo. Supongamos que quiere adoptar una postura neutral y no es ni comprador ni vendedor de un coche. Entonces, R2 puede tener sentido: usted es imparcial y desea castigar las desviaciones hacia la sobrevaloración o la infravaloración de forma exactamente idéntica. Lo mismo ocurre si sólo desea modelizar la relación entre las cantidades sin querer predecir valores no observados. Supongamos ahora que trabaja para un consumidor/comprador con un presupuesto ajustado: En esta situación, es posible que quiera castigar la sobreestimación del precio en un sentido cuadrático, pero la infraestimación en un sentido Lp sentido, donde 1⩽ . Para p=1 castigarías en un sentido de desviación absoluta. Se puede considerar que esto refleja los objetivos y las intenciones del comprador, y sesgar la estimación a la baja podría interesarle. A la inversa, se podría dar la vuelta al pensamiento si se modelaran las predicciones de precios para el vendedor. Huelga decir que cualquier norma L^p podría elegirse para reflejar las preferencias del modelador/del agente para el que modela. También puede castigar fuera del L^p norma por completo, y utilizar una pérdida constante, exponencial o logarítmica en un lado y una pérdida diferente en el otro.
En resumen, la elección/evaluación del modelo no puede considerarse independientemente de su objetivo.