Esta respuesta se centrará principalmente en $R^2$ pero la mayor parte de esta lógica se extiende a otras métricas como el AUC, etc.
Es casi seguro que los lectores de CrossValidated no podrán responder bien a esta pregunta. No hay una forma libre de contexto para decidir si las métricas del modelo como $R^2$ son buenos o no . En los extremos, suele ser posible obtener un consenso de una gran variedad de expertos: un $R^2$ de casi 1 generalmente indica un buen modelo, y de cerca de 0 indica uno terrible. En medio se encuentra un rango en el que las evaluaciones son inherentemente subjetivas. En este rango, se necesita algo más que experiencia estadística para responder si la métrica de su modelo es buena. Se necesita una experiencia adicional en su área, que los lectores de CrossValidated probablemente no tienen.
¿Por qué? Permítanme ilustrarlo con un ejemplo de mi propia experiencia (se han cambiado pequeños detalles).
Solía hacer experimentos de laboratorio de microbiología. Preparaba frascos con células a diferentes niveles de concentración de nutrientes y medía el crecimiento de la densidad celular (es decir, la pendiente de la densidad celular frente al tiempo, aunque este detalle no es importante). Cuando luego modelizaba esta relación crecimiento/nutrientes, era habitual conseguir $R^2$ de >0,90.
Ahora soy un científico medioambiental. Trabajo con conjuntos de datos que contienen mediciones de la naturaleza. Si intento ajustar exactamente el mismo modelo descrito anteriormente a estos conjuntos de datos "de campo", me sorprendería que el $R^2$ llegó a ser de 0,4.
Estos dos casos incluyen exactamente los mismos parámetros, con métodos de medición muy similares, modelos escritos y ajustados utilizando los mismos procedimientos - ¡e incluso la misma persona que hace el ajuste! Pero en un caso, un $R^2$ de 0,7 sería preocupantemente bajo, y en el otro sería sospechosamente alto.
Además, junto a las mediciones biológicas, realizaríamos algunas mediciones químicas. Los modelos para las curvas estándar de química tendrían $R^2$ alrededor de 0,99, y un valor de 0,90 sería preocupantemente bajo .
¿Qué lleva a estas grandes diferencias en las expectativas? El contexto. Este vago término abarca un área muy amplia, así que permítanme intentar separarlo en algunos factores más específicos (probablemente esto sea incompleto):
1. ¿Cuál es la recompensa/consecuencia/aplicación?
Aquí es donde la naturaleza de su campo es probablemente más importante. Por muy valioso que crea que es mi trabajo, subir mi modelo $R^2$ s por 0,1 o 0,2 no va a revolucionar el mundo. Pero hay aplicaciones en las que esa magnitud de cambio sería enorme. Una mejora mucho menor en un modelo de previsión bursátil podría suponer decenas de millones de dólares para la empresa que lo desarrolla.
Esto es aún más fácil de ilustrar para los clasificadores, por lo que voy a cambiar mi discusión de las métricas de $R^2$ a la precisión para el siguiente ejemplo (ignorando la debilidad de la métrica de precisión por el momento). Considere el extraño y lucrativo mundo de sexado de pollos . Tras años de entrenamiento, un humano puede distinguir rápidamente entre un polluelo macho y uno hembra cuando sólo tienen un día de vida. Los machos y las hembras se alimentan de forma diferente para optimizar la producción de carne y huevos, por lo que una alta precisión ahorra enormes cantidades de inversión mal asignada en miles de millones de las aves. Hasta hace unas décadas, las precisiones de alrededor del 85% se consideraban elevadas en Estados Unidos. Hoy en día, el valor de lograr la mayor precisión, de alrededor del 99%? Un salario que, al parecer, puede llegar a 60,000 para posiblemente 180,000 dólares al año (según una búsqueda rápida en Google). Dado que los humanos siguen estando limitados en la velocidad a la que trabajan, los algoritmos de aprendizaje automático que pueden lograr una precisión similar, pero que permiten que la clasificación se realice más rápidamente, podrían valer millones.
(Espero que te haya gustado el ejemplo - la alternativa era una deprimente sobre la muy cuestionable identificación algorítmica de los terroristas).
2. ¿Cómo de fuerte es la influencia de los factores no modelados en su sistema?
En muchos experimentos, se tiene el lujo de aislar el sistema de todos los demás factores que pueden influir en él (después de todo, ése es en parte el objetivo de la experimentación). La naturaleza es más desordenada. Siguiendo con el ejemplo anterior de la microbiología, las células crecen cuando hay nutrientes disponibles, pero también hay otros factores que las afectan: el calor que hace, el número de depredadores que se las comen, si hay toxinas en el agua. Todos estos factores interactúan con los nutrientes y entre sí de forma compleja. Cada uno de esos otros factores genera una variación en los datos que no está siendo captada por su modelo. Los nutrientes pueden carecer de importancia a la hora de impulsar la variación relativa a los otros factores, por lo que si excluyo esos otros factores, mi modelo de mis datos de campo tendrá necesariamente un $R^2$ .
3. ¿Qué precisión y exactitud tienen sus mediciones?
La medición de la concentración de células y sustancias químicas puede ser extremadamente precisa y exacta. Medir (por ejemplo) el estado emocional de una comunidad basándose en los hashtags que son tendencia en Twitter es probable que lo sea menos. Si no puedes ser preciso en tus mediciones, es poco probable que tu modelo pueda alcanzar un alto $R^2$ . ¿Qué precisión tienen las mediciones en su campo? Probablemente no lo sabemos.
4. Complejidad y generalización del modelo
Si añade más factores a su modelo, aunque sean aleatorios, aumentará por término medio el modelo $R^2$ (ajustado $R^2$ aborda en parte esta cuestión). Esto es sobreajuste . Un modelo sobreajustado no se generalizará bien a los nuevos datos, es decir, tendrá un error de predicción mayor que el esperado según el ajuste al conjunto de datos original (de entrenamiento). Esto se debe a que ha ajustado el ruido en el conjunto de datos original. Esta es en parte la razón por la que los modelos se penalizan por su complejidad en los procedimientos de selección de modelos, o se someten a una regularización.
Si se ignora el sobreajuste o no se consigue evitarlo, la estimación $R^2$ estará sesgada al alza, es decir, será más alta de lo que debería ser. En otras palabras, su $R^2$ puede dar una impresión errónea del rendimiento de su modelo si está sobreajustado.
IMO, el sobreajuste es sorprendentemente común en muchos campos. La mejor manera de evitarlo es un tema complejo, y recomiendo leer sobre regularización procedimientos y selección del modelo en este sitio si está interesado en esto.
5. Rango de datos y extrapolación
¿Su conjunto de datos se extiende a través de una parte sustancial del rango de valores X que le interesa? Añadir nuevos puntos de datos fuera del rango de datos existente puede tener un gran efecto en la estimación de $R^2$ ya que es una métrica basada en la varianza de X e Y.
Aparte de esto, si se ajusta un modelo a un conjunto de datos y se necesita predecir un valor fuera del rango X de ese conjunto de datos (es decir extrapolar ), es posible que su rendimiento sea inferior al esperado. Esto se debe a que la relación que has estimado podría cambiar fuera del rango de datos que has ajustado. En la figura siguiente, si se toman medidas sólo en el rango indicado por el recuadro verde, se podría imaginar que una línea recta (en rojo) describe bien los datos. Pero si intentaras predecir un valor fuera de ese rango con esa línea roja, estarías muy equivocado.
[La figura es una versión editada de este Encontrado a través de una rápida búsqueda en Google de la "curva de Monod"].
6. Las métricas sólo dan una parte de la imagen
Esto no es realmente una crítica a las métricas - son resúmenes lo que significa que también desechan la información por diseño. Pero sí significa que cualquier métrica individual deja fuera información que puede ser crucial para su interpretación. Un buen análisis tiene en cuenta más que una sola métrica.
Se aceptan sugerencias, correcciones y otros comentarios. Y otras respuestas también, por supuesto.
1 votos
Relacionado: ¿Cómo saber que su problema de aprendizaje automático no tiene solución? Como en "Tengo $R^2=0.6$ ¿Significa eso que no puedo mejorarla más?"
3 votos
Línea de base para $R^2$ o cualquier otra métrica usada? Ir de $R^2 = 0.03$ a $R^2 = 0.05$ puede suponer un salto de rendimiento increíble en determinadas aplicaciones. Este exactamente cómo funciona toda publicación razonable. Tenemos un modelo propuesto, tenemos una serie de métricas bien aceptadas, conocemos el "estado del arte" y comparamos el rendimiento. Y así sabemos si nuestro modelo es cualquier cosa buena .
1 votos
Algo que he notado (al menos en mi propia cabeza) es que una métrica absoluta como $R^2$ (donde siempre sabemos que $0.7$ es mejor que $0.6$ ) tiene más atractivo que algo relativo como el RMSE (donde se aumenta el RMSE simplemente cambiando las unidades de parsecs a nanómetros), pero luego nos apegamos a la escala de letras y empezamos a pensar que $R^2>0.9$ es un A y $R^2 <0.6$ es un F . Como se ha señalado, incluso un " F -puntuación" $R^2$ podría ser bastante bueno.