32 votos

¿Es bueno mi modelo, basado en la métrica de diagnóstico ( $R^2$ / AUC/ precisión/ RMSE, etc.)?

He ajustado mi modelo y estoy tratando de entender si es bueno. He calculado las métricas recomendadas para evaluarlo ( $R^2$ / AUC / precisión / error de predicción / etc) pero no sé cómo interpretarlos. En resumen, ¿cómo puedo saber si mi modelo es bueno en función de la métrica? ¿Es un $R^2$ de 0,6 (por ejemplo) es suficiente para permitirme hacer inferencias o fundamentar decisiones científicas/empresariales?


Esta pregunta es intencionadamente amplia, para abarcar una gran variedad de situaciones que los miembros encuentran con frecuencia; tales preguntas podrían cerrarse como duplicados de ésta. Son bienvenidas las ediciones que amplíen el alcance más allá de las métricas mencionadas aquí, así como las respuestas adicionales, especialmente las que ofrezcan información sobre otras clases de métricas.

1 votos

Relacionado: ¿Cómo saber que su problema de aprendizaje automático no tiene solución? Como en "Tengo $R^2=0.6$ ¿Significa eso que no puedo mejorarla más?"

3 votos

Línea de base para $R^2$ o cualquier otra métrica usada? Ir de $R^2 = 0.03$ a $R^2 = 0.05$ puede suponer un salto de rendimiento increíble en determinadas aplicaciones. Este exactamente cómo funciona toda publicación razonable. Tenemos un modelo propuesto, tenemos una serie de métricas bien aceptadas, conocemos el "estado del arte" y comparamos el rendimiento. Y así sabemos si nuestro modelo es cualquier cosa buena .

1 votos

Algo que he notado (al menos en mi propia cabeza) es que una métrica absoluta como $R^2$ (donde siempre sabemos que $0.7$ es mejor que $0.6$ ) tiene más atractivo que algo relativo como el RMSE (donde se aumenta el RMSE simplemente cambiando las unidades de parsecs a nanómetros), pero luego nos apegamos a la escala de letras y empezamos a pensar que $R^2>0.9$ es un A y $R^2 <0.6$ es un F . Como se ha señalado, incluso un " F -puntuación" $R^2$ podría ser bastante bueno.

34voto

mkt Puntos 688

Esta respuesta se centrará principalmente en $R^2$ pero la mayor parte de esta lógica se extiende a otras métricas como el AUC, etc.

Es casi seguro que los lectores de CrossValidated no podrán responder bien a esta pregunta. No hay una forma libre de contexto para decidir si las métricas del modelo como $R^2$ son buenos o no . En los extremos, suele ser posible obtener un consenso de una gran variedad de expertos: un $R^2$ de casi 1 generalmente indica un buen modelo, y de cerca de 0 indica uno terrible. En medio se encuentra un rango en el que las evaluaciones son inherentemente subjetivas. En este rango, se necesita algo más que experiencia estadística para responder si la métrica de su modelo es buena. Se necesita una experiencia adicional en su área, que los lectores de CrossValidated probablemente no tienen.

¿Por qué? Permítanme ilustrarlo con un ejemplo de mi propia experiencia (se han cambiado pequeños detalles).

Solía hacer experimentos de laboratorio de microbiología. Preparaba frascos con células a diferentes niveles de concentración de nutrientes y medía el crecimiento de la densidad celular (es decir, la pendiente de la densidad celular frente al tiempo, aunque este detalle no es importante). Cuando luego modelizaba esta relación crecimiento/nutrientes, era habitual conseguir $R^2$ de >0,90.

Ahora soy un científico medioambiental. Trabajo con conjuntos de datos que contienen mediciones de la naturaleza. Si intento ajustar exactamente el mismo modelo descrito anteriormente a estos conjuntos de datos "de campo", me sorprendería que el $R^2$ llegó a ser de 0,4.

Estos dos casos incluyen exactamente los mismos parámetros, con métodos de medición muy similares, modelos escritos y ajustados utilizando los mismos procedimientos - ¡e incluso la misma persona que hace el ajuste! Pero en un caso, un $R^2$ de 0,7 sería preocupantemente bajo, y en el otro sería sospechosamente alto.

Además, junto a las mediciones biológicas, realizaríamos algunas mediciones químicas. Los modelos para las curvas estándar de química tendrían $R^2$ alrededor de 0,99, y un valor de 0,90 sería preocupantemente bajo .


¿Qué lleva a estas grandes diferencias en las expectativas? El contexto. Este vago término abarca un área muy amplia, así que permítanme intentar separarlo en algunos factores más específicos (probablemente esto sea incompleto):

1. ¿Cuál es la recompensa/consecuencia/aplicación?

Aquí es donde la naturaleza de su campo es probablemente más importante. Por muy valioso que crea que es mi trabajo, subir mi modelo $R^2$ s por 0,1 o 0,2 no va a revolucionar el mundo. Pero hay aplicaciones en las que esa magnitud de cambio sería enorme. Una mejora mucho menor en un modelo de previsión bursátil podría suponer decenas de millones de dólares para la empresa que lo desarrolla.

Esto es aún más fácil de ilustrar para los clasificadores, por lo que voy a cambiar mi discusión de las métricas de $R^2$ a la precisión para el siguiente ejemplo (ignorando la debilidad de la métrica de precisión por el momento). Considere el extraño y lucrativo mundo de sexado de pollos . Tras años de entrenamiento, un humano puede distinguir rápidamente entre un polluelo macho y uno hembra cuando sólo tienen un día de vida. Los machos y las hembras se alimentan de forma diferente para optimizar la producción de carne y huevos, por lo que una alta precisión ahorra enormes cantidades de inversión mal asignada en miles de millones de las aves. Hasta hace unas décadas, las precisiones de alrededor del 85% se consideraban elevadas en Estados Unidos. Hoy en día, el valor de lograr la mayor precisión, de alrededor del 99%? Un salario que, al parecer, puede llegar a 60,000 para posiblemente 180,000 dólares al año (según una búsqueda rápida en Google). Dado que los humanos siguen estando limitados en la velocidad a la que trabajan, los algoritmos de aprendizaje automático que pueden lograr una precisión similar, pero que permiten que la clasificación se realice más rápidamente, podrían valer millones.

(Espero que te haya gustado el ejemplo - la alternativa era una deprimente sobre la muy cuestionable identificación algorítmica de los terroristas).

2. ¿Cómo de fuerte es la influencia de los factores no modelados en su sistema?

En muchos experimentos, se tiene el lujo de aislar el sistema de todos los demás factores que pueden influir en él (después de todo, ése es en parte el objetivo de la experimentación). La naturaleza es más desordenada. Siguiendo con el ejemplo anterior de la microbiología, las células crecen cuando hay nutrientes disponibles, pero también hay otros factores que las afectan: el calor que hace, el número de depredadores que se las comen, si hay toxinas en el agua. Todos estos factores interactúan con los nutrientes y entre sí de forma compleja. Cada uno de esos otros factores genera una variación en los datos que no está siendo captada por su modelo. Los nutrientes pueden carecer de importancia a la hora de impulsar la variación relativa a los otros factores, por lo que si excluyo esos otros factores, mi modelo de mis datos de campo tendrá necesariamente un $R^2$ .

3. ¿Qué precisión y exactitud tienen sus mediciones?

La medición de la concentración de células y sustancias químicas puede ser extremadamente precisa y exacta. Medir (por ejemplo) el estado emocional de una comunidad basándose en los hashtags que son tendencia en Twitter es probable que lo sea menos. Si no puedes ser preciso en tus mediciones, es poco probable que tu modelo pueda alcanzar un alto $R^2$ . ¿Qué precisión tienen las mediciones en su campo? Probablemente no lo sabemos.

4. Complejidad y generalización del modelo

Si añade más factores a su modelo, aunque sean aleatorios, aumentará por término medio el modelo $R^2$ (ajustado $R^2$ aborda en parte esta cuestión). Esto es sobreajuste . Un modelo sobreajustado no se generalizará bien a los nuevos datos, es decir, tendrá un error de predicción mayor que el esperado según el ajuste al conjunto de datos original (de entrenamiento). Esto se debe a que ha ajustado el ruido en el conjunto de datos original. Esta es en parte la razón por la que los modelos se penalizan por su complejidad en los procedimientos de selección de modelos, o se someten a una regularización.

Si se ignora el sobreajuste o no se consigue evitarlo, la estimación $R^2$ estará sesgada al alza, es decir, será más alta de lo que debería ser. En otras palabras, su $R^2$ puede dar una impresión errónea del rendimiento de su modelo si está sobreajustado.

IMO, el sobreajuste es sorprendentemente común en muchos campos. La mejor manera de evitarlo es un tema complejo, y recomiendo leer sobre regularización procedimientos y selección del modelo en este sitio si está interesado en esto.

5. Rango de datos y extrapolación

¿Su conjunto de datos se extiende a través de una parte sustancial del rango de valores X que le interesa? Añadir nuevos puntos de datos fuera del rango de datos existente puede tener un gran efecto en la estimación de $R^2$ ya que es una métrica basada en la varianza de X e Y.

Aparte de esto, si se ajusta un modelo a un conjunto de datos y se necesita predecir un valor fuera del rango X de ese conjunto de datos (es decir extrapolar ), es posible que su rendimiento sea inferior al esperado. Esto se debe a que la relación que has estimado podría cambiar fuera del rango de datos que has ajustado. En la figura siguiente, si se toman medidas sólo en el rango indicado por el recuadro verde, se podría imaginar que una línea recta (en rojo) describe bien los datos. Pero si intentaras predecir un valor fuera de ese rango con esa línea roja, estarías muy equivocado.

enter image description here

[La figura es una versión editada de este Encontrado a través de una rápida búsqueda en Google de la "curva de Monod"].

6. Las métricas sólo dan una parte de la imagen

Esto no es realmente una crítica a las métricas - son resúmenes lo que significa que también desechan la información por diseño. Pero sí significa que cualquier métrica individual deja fuera información que puede ser crucial para su interpretación. Un buen análisis tiene en cuenta más que una sola métrica.


Se aceptan sugerencias, correcciones y otros comentarios. Y otras respuestas también, por supuesto.

3 votos

Una cosa que añadir a esta excelente publicación es que $R^2$ se trata de comparar la varianza explicada y la no explicada. Una baja $R^2$ puede indicar problemas con el modelo, pero también puede indicar que cualquier variable predictiva disponible no explica realmente gran parte de la variación de los datos. En este último caso, el modelo puede ser malo en algún sentido "absoluto", como la precisión predictiva, pero bueno en el sentido de que no hay ninguno mejor, al menos no con los datos disponibles.

0 votos

@Lewian Gracias por los comentarios. Pensé que lo tenía cubierto en los puntos 2 y 3, pero veo que se puede mejorar. Pensaré en cómo dejar más claro ese punto.

1 votos

Sí, he pensado si esto ya está cubierto. La cosa con 2 y 3 es que dan razones específicas por las que esto podría suceder, sin embargo es una cuestión general.

3voto

Jimit Puntos 188

Este problema se plantea en mi campo de la hidrología cuando se evalúa la eficacia de los modelos para predecir el caudal de los ríos a partir de los datos pluviométricos y climáticos. Algunos investigadores ( Chiew y McMahon, 1993 ) encuestó a 93 hidrólogos (63 respondieron) para averiguar qué gráficos de diagnóstico y estadísticas de bondad de ajuste utilizaban, cuáles eran los más importantes y cómo se utilizaban para clasificar la calidad del ajuste de un modelo. Los resultados son ya antiguos, pero el enfoque puede seguir siendo interesante. Presentaron los resultados de los ajustes de modelos de diversas calidades y pidieron a los hidrólogos que los clasificaran en 4 categorías (1) resultado perfectamente aceptable; (2) aceptable, pero utilizarlo con reservas; (3) inaceptable, utilizarlo sólo si no hay otra alternativa; y (4) no utilizarlo nunca bajo ninguna condición.

Los gráficos de diagnóstico más importantes fueron los gráficos de series temporales y los gráficos de dispersión de los caudales simulados y registrados de los datos utilizados para la calibración. R-cuadrado y Coeficiente de eficiencia del modelo Nash-Sutcliffe (E) fueron los estadísticos de bondad de ajuste preferidos. Por ejemplo, los resultados se consideraron aceptables si E => 0,8

Hay otros ejemplos en la literatura. Al evaluar un modelo de ecosistema en el Mar del Norte, se utilizó la siguiente categorización E > 0,65 excelente, de 0,5 a 0,65 muy bueno, de 0,2 a 0,5 como bueno y <0,2 como malo ( Allen y otros, 2007 ).

Moriasi et al., (2015) proporciona tablas de valores aceptables para las métricas de varios tipos de modelos.

He resumido esta información y las referencias en un entrada del blog .

Allen, J., P. Somerfield, y F. Gilbert (2007), Quantifying uncertainty in high-resolution coupled hydrodynamic-ecosystem models, J. Mar. Syst.,64(1-4), 3-14, doi:10.1016/j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. y Daggupati, P. (2015) Hydrologic and Water Quality Models: Performance Measures and Evaluation Criteria Transactions of the ASABE (American Society of Agricultural and Biological Engineers) 58(6):1763-1785

1voto

Sólo para añadir a las magníficas respuestas anteriores: en mi experiencia, las métricas de evaluación y las herramientas de diagnóstico son tan buenas y honestas como la persona que las utiliza. Es decir, si entiendes las matemáticas que hay detrás de ellas, es probable que puedas aumentarlas artificialmente para que tu modelo parezca mejor sin aumentar su utilidad real.

Por ejemplo, como se menciona en uno de los comentarios, en algunas aplicaciones $R^2=0.03 \to R^2 = 0.05$ puede suponer un gran aumento del rendimiento. Sin embargo, si este aumento se ha obtenido de forma artificial (es decir, eliminando arbitrariamente algunas observaciones), este aumento de rendimiento no es sincero y podría decirse que aporta poca utilidad.

Seré breve en esta respuesta, ya que los anteriores hacen un gran trabajo proporcionando explicaciones/referencias. Sólo quería añadir algo de perspectiva a la sección sobre 6. Las métricas sólo dan una parte de la imagen por la respuesta de mkt.

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X