1 votos

Posibles problemas de signos en una métrica de rendimiento compuesta para la selección de modelos

Estoy analizando los resultados de varios modelos de aprendizaje automático para una tarea de regresión, utilizando cuatro métricas: RMSE, MAE, MAPE y $R^2$. Mi enfoque implica dos tipos de análisis:

  1. Análisis de Métricas Individuales: Donde se considera cada métrica por separado.
  2. Análisis de Métricas de Rendimiento Compuestas: Una métrica combinada para determinar el mejor modelo entre los candidatos.

La Métrica de Rendimiento Compuesta (MRC) incorpora la media estandarizada de las métricas derivadas de los resultados individuales obtenidos a través de la validación cruzada:

$$ \begin{equation} \text{MRC} = M_{norm}(\text{RMSE}) + M_{norm}(\text{MAE}) + M_{norm}(\text{MAPE}) - M_{norm}(R^2) \end{equation} $$

donde

$$ \begin{equation} M_{norm}(\text{métrica}) = \frac{\text{métrica} - \mu_{\text{métrica}}}{\sigma_{\text{métrica}}} \end{equation} $$ y $\mu_\text{métrica}$ es la media general de la métrica entre todos los modelos, y $\sigma_\text{métrica}$ es la desviación estándar general de la métrica entre todos los modelos.

La MRC prioriza modelos con errores más bajos (RMSE, MAE, MAPE) y valores más altos de $R^2$. Al estandarizar cada métrica, la MRC asegura que todas las métricas contribuyan de manera equitativa, permitiendo una comparación justa entre diferentes modelos. Básicamente funciona como una suma ponderada donde cada métrica tiene el mismo peso.

El Problema con los Cambios de Signo

Sin embargo, me he encontrado con un problema potencial: durante el proceso de estandarización, los signos de algunas métricas pueden cambiar. Esto podría llevar a resultados engañosos al calcular la MRC. Por ejemplo, si el signo de $R^2$ cambia debido a la estandarización, podría aumentar inadvertidamente la MRC, penalizando a modelos que deberían ser recompensados por sus valores de $R^2$ más altos.

Solución Propuesta

Para abordar este problema, estoy considerando el siguiente enfoque:

  • Métricas de Error (RMSE, MAE, MAPE): Dado que estas métricas son no negativas, propongo tomar el valor absoluto de las métricas estandarizadas para asegurar que siempre contribuyan positivamente a la MRC.
  • $R^2$ Métrica: Sugiero preservar el signo original de $R^2$ antes de la estandarización y volver a aplicarlo después para mantener su influencia deseada en la MRC.

Solicitud de Comentarios

¿Les parece válido este enfoque, o estoy pasando por alto algo? ¿Existen métodos alternativos o consideraciones que podrían abordar mejor el problema de los cambios de signo durante la estandarización en el contexto de la MRC?

2voto

mkt Puntos 688

RMSE, MAE, MAPE y $R^2$ se utilizan en diferentes situaciones para evaluar y clasificar modelos porque reflejan diferentes suposiciones sobre la naturaleza del problema, datos y errores. Promediarlos para producir una métrica única resulta en una forma ininterpretable de clasificar tus modelos. Dejando de lado los problemas asociados con $R^2$, ¿qué significa el promedio del RMSE, MAE y MAPE $z$-transformados? La falta de una interpretación simple no necesariamente es una objeción insuperable - ve el loss de Huber para un caso interesante que 'combina' diferentes funciones de pérdida, aparentemente de manera efectiva. Sin embargo, vale la pena pensar cuidadosamente sobre las propiedades de esta nueva métrica antes de implementarla.

En ausencia de un examen detallado de sus propiedades, en cambio, sugeriría (i) elegir una métrica única con la cual evaluar tus modelos basándote en la naturaleza de tu problema y datos, o (ii) estimar todas las métricas, y considerar por qué difieren en sus clasificaciones antes de tomar una decisión sobre el mejor modelo en lugar de aplicarles una regla simple a todas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X