3 votos

¿Cuáles son los buenos criterios para evaluar el rendimiento de los algoritmos en un problema de regresión?

Estoy clasificando diferentes algoritmos en el conjunto de datos de calidad del vino. La calidad oscila entre 0 y 10 en función de otros 11 atributos. Aquí está la datos .

Estoy tratando esto como un problema de regresión.

Cuando ejecuto el algoritmo de árbol de decisión (con una validación cruzada de 10 veces) y un factor de confianza de 0,5 en el conjunto de datos, obtengo el siguiente resultado:

Correctly Classified Instances        3808               58.6117 %
Incorrectly Classified Instances      2689               41.3883 %
Kappa statistic                          0.3808
Mean absolute error                      0.0787
Root mean squared error                  0.2562
Relative absolute error                 64.3868 %
Root relative squared error            103.6923 %
Total Number of Instances             6497  

Cuando ejecuto lo mismo con un factor de confianza de 0,125 obtengo el siguiente resultado

Correctly Classified Instances        3790               58.3346 %
Incorrectly Classified Instances      2707               41.6654 %
Kappa statistic                          0.3722
Mean absolute error                      0.0817
Root mean squared error                  0.253 
Relative absolute error                 66.8975 %
Root relative squared error            102.4069 %
Total Number of Instances             6497   

Preguntas

  • ¿Qué debería utilizar para evaluar el rendimiento del algoritmo? ¿RMSE? o ¿Instancias correctamente clasificadas?
  • ¿Y si comparo los resultados de diferentes algoritmos? Por ejemplo, Árbol de decisión frente a KNN, etc.
  • ¿Y si el problema es de clasificación y no de regresión?

2voto

Nulled Puntos 101

En primer lugar, puede haber cierta confusión en la terminología. Los árboles de decisión son rutinas de clasificación, a pesar de que se les conoce comúnmente como modelos CART (o árboles de clasificación y regresión) y, como tales, no son verdaderamente modelos de regresión (estoy seguro de que alguien discrepará de esta afirmación. No hay problema), sobre todo porque son técnicas no paramétricas y sin distribución.

Dicho esto, los tipos de métricas de rendimiento posibles pueden diferir entre los modelos de regresión y los árboles de decisión, pero las cuestiones fundamentales que se abordan no cambian. Desde el difunto y gran Leo Breiman en los años 90 (autor del libro original sobre CART), la industria estadística ha consagrado la optimización de la precisión predictiva (PA, alternativamente, la minimización del error cuadrático medio) como la métrica estándar de oro para la evaluación del rendimiento y la validación del modelo.

El hecho de que la AP haya evolucionado hasta alcanzar este estatus es comprensible: es fácil de calibrar y, en su mayor parte, es una estadística consistente para la validación de modelos internos. Sin embargo, con demasiada frecuencia es el único criterio para determinar el valor del modelo, sin tener en cuenta el impacto más amplio en el negocio, y a pesar de que es propenso a la piratería, los juegos y el fraude de los analistas.

El Premio Netflix de 2008 es una lección sobre estos retos. Netflix ofreció una recompensa a cualquier estadístico o equipo capaz de mejorar el MSE de su sistema de recomendación. Sin embargo, tal y como aprendió Netflix, el verdadero problema era que, desde una perspectiva de coste completo, la mejora real respecto a su modelo actual era una reducción del 0,005% en la escala de valoración real de 5 puntos. Además, los costes informáticos del mantenimiento de este conjunto de 107 modelos anulaban con creces cualquier ganancia derivada de la reducción de errores. Netflix abandonó la búsqueda de MSE y no se han concedido más premios Netflix.

Sin embargo, otros concursos -por ejemplo, Kaggle, Crowdanalytix- han consagrado la AP. Sin embargo, para ser justos, la era de los problemas de crowdsourcing como concursos de minería de datos era completamente nueva cuando NetFlix la lanzó. Los organizadores y patrocinadores de este tipo de eventos están aprendiendo ahora a ser más cuidadosos en la forma de plantear el problema y los concursos de minería de datos están evolucionando hacia soluciones más prácticas y más utilizables. Este año o el próximo, es posible que veamos concursos en los que el uso de una caja de arena de AWS designada (o equivalente) forme parte de la puntuación. "El servidor virtual oficial del concurso será de 8 CPUs a XXXX MHz y con 128 GB de RAM. Las soluciones que duren más de 4 horas serán penalizadas con un 10% por hora (prorrateado) por exceso de tiempo de ejecución. Las soluciones que duren más de 10 horas, o que fallen por exceder los recursos disponibles, serán descalificadas." Pero esto aún no ha ocurrido.

Lo que quiero decir es que la AP no es la única métrica para la validación de modelos. ¿Debería el analista estar dispuesto a sacrificar algo de AP al tener en cuenta otras consideraciones? ¿Qué combinación de posibles métricas satisfará las limitaciones en cuanto a la AP y obtendrá las ideas estratégicas más sólidas y la confianza en las predicciones frente a la información realmente fuera de la muestra y la incertidumbre inherente a todas las proyecciones futuras?

Integración con las finanzas de la empresa

Entre los analistas aplicados, tener experiencia en el dominio y un sentido general de cómo su negocio hace dinero puede resultar en una alineación mucho mayor entre las consideraciones puramente estadísticas como la AP y los objetivos estratégicos. Estas ideas, como muestra Netflix, no siempre son obvias. Algunos artículos recientes de la literatura sobre gestión estratégica señalan que la AP es una pista falsa que puede inducir a error, especialmente en lo que respecta a la planificación estratégica en condiciones de incertidumbre.

Modelos descriptivos y predictivos

Los modelos descriptivos encuentran un conjunto reducido de predictores que proporcionan información independiente de uno a otro, y son intuitivamente interpretables para los profanos en la materia para obtener las mayores percepciones estratégicas. Los modelos de precios son un ejemplo en el que la independencia es deseable, ya que el objetivo es entender cómo el precio por sí solo influye en el resultado. Los modelos de predicción, en cambio, suelen optimizar la AP y a veces se describen como "cajas negras" que son opacas o incluso contraintuitivas para el entendimiento de los profanos.

Validación del modelo

La AP no es unidimensional y las distinciones entre la validación interna frente a la externa o la verdaderamente fuera de la muestra pueden perderse o difuminarse:

  • Histórico: PA de una muestra de retención aleatoria o k-fold cv de los mismos datos

  • Previsión: se supone que los datos están en forma de serie temporal. La validación se realiza entre los valores previstos y los reales basados en las observaciones "de hoy" proyectadas hacia el futuro

  • Prospectiva: la validación externa sobre datos realmente fuera de la muestra, puede ser un experimento "en el mercado" que se logra haciendo predicciones sobre el futuro y luego esperando un período de tiempo para evaluar el modelo en relación con los eventos reales. Los programas informáticos como Unica también pueden proporcionar estas pruebas

Estabilidad del modelo

Las estimaciones de los parámetros pueden ser notoriamente inestables fuera de la muestra. Dado un conjunto fijo de predictores del modelo, ¿cómo de estables son a través de conjuntos de datos fijos, k-fold cv? Además, ¿cómo de estables son los predictores a través de los datos de k-fold cv basados en el método de selección de variables? ¿Proporcionan los distintos métodos resultados similares?

Métricas adicionales

La complejidad del modelo suele expresarse en términos del número de parámetros de un modelo y se basa en medidas como el AIC, el BIC o el Hannan-Quinn. También es posible utilizar otras medidas. Por ejemplo, existen métricas para evaluar aspectos cualitativos del rendimiento del modelo que pueden no mejorar la AP pero que pueden estar relacionadas con el poder descriptivo. Entre ellas se encuentran la D de Mandelbrot para la dimensionalidad fractal, el exponente H de Hurst para la aleatoriedad "salvaje", la entropía, el interés, la confianza conforme, la diversidad, la novedad, etc.

0voto

Rishi Puntos 29

Dado que ha utilizado la validación cruzada, el MSE es el error que desea observar porque es el error de su conjunto de pruebas, y la aproximación del verdadero error de prueba.

Si se utilizan otros algoritmos con validación cruzada, el MSE sigue siendo apropiado.

Sólo querrá utilizar un ajuste del MSE -como el AIC, el BIC o el R^2 adjunto- si sólo ejecuta sus modelos en el conjunto de entrenamiento sin ningún tipo de validación.

Para la clasificación se utiliza la tasa de error, que es la media de $I(y_i \neq \hat{y_i})$ .

Fuente: "An Introduction to Statistical Learning" de Gareth James

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X