19 votos

Demostrar que los resultados del aprendizaje automático son estadísticamente irrelevantes

Se trata de una pregunta que forma parte de la revisión de un artículo ya publicado. Los autores del artículo publican $R^2$ y RMSE en el entrenamiento, pero sólo RMSE en la validación. Utilizando el código publicado, $R^2$ puede calcularse con los datos de validación y, de hecho, es negativo en todos los casos, mientras que el RMSE coincide con lo publicado. Se trata de una tarea de regresión más que de clasificación. Hay aproximadamente $45$ casos de prueba mediante $2$ modelos separados (RF, RNA), lo que significa que alrededor de $90$ modelos generados y $90$ predicciones. Sólo $2$ - $3$ de la $90$ predicciones tienen un $R^2$ y todos ellos están por debajo de $0.1$ ¡!

Estoy intentando convencer a mi equipo de que los resultados son malos, pero quieren ignorar la $R^2$ y sugieren que basta con un RMSE "bueno". El RMSE parece correcto, pero basado en una corazonada (negativa $R^2$ ) Hice dos modelos adicionales (media y última muestra) que a menudo igualan o superan el RMSE de los modelos RF y ANN publicados en el artículo. El modelo medio sólo toma la media del entrenamiento y la utiliza en todas las predicciones. El conjunto de datos es una serie temporal (variable en el tiempo, normalmente $1$ - $2$ muestras por semana), por lo que el modelo de la última muestra sólo utiliza el valor de la muestra anterior.

Como mi equipo quiere ignorar lo malo $R^2$ ¿hay alguna otra forma de demostrar que los modelos RF y RNA del artículo no producen resultados estadísticamente relevantes? Tal vez haya una prueba estadística que pueda utilizar para demostrar que los resultados no son significativos, pero no sé por dónde empezar.

Por otra parte, el problema en este ámbito también suele formularse como una tarea de clasificación binaria con un umbral determinado. En este sentido, el código del artículo intenta calcular manualmente el AUROC, pero parece que no lo consigue. Sin embargo, los detalles del cálculo del AUROC no se proporcionan en el artículo, ¡dejando que los lectores asuman que se aplica el método AUROC estándar! En lugar de utilizar una biblioteca para calcular el AUROC, el código lo calcula manualmente utilizando algún tipo de proceso de bootstrapping. Cuando utilizo los métodos de puntuación de sklearn para el AUROC, parece que todos los $90$ modelos están alrededor o por debajo $0.5$ (es decir, completamente aleatorio o incluso roto) Quizás $1$ - $3$ modelos (de $90$ ) hacer una predicción en torno a $0.6$ o $0.7$ . Una vez más, el equipo quiere ignorar esto, ya que el objetivo principal del documento es aparentemente la tarea de regresión.

Edición: Con respecto a un negativo $R^2$ los autores calculan $R^2$ utilizando sklearn's r2_score método ( https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html ). Según la documentación "La mejor puntuación posible es 1,0 y puede ser negativa (porque el modelo puede ser arbitrariamente peor)".

Edición 2: Esta pregunta se publicó anteriormente en Data Science ( https://datascience.stackexchange.com/questions/112554/showing-machine-learning-results-are-statistically-irrelevant ) pero se trasladó aquí tras recibir comentarios. Antes de mover, la retroalimentación allí sugirió algunas cosas, incluyendo: $0$ o menos $R^2$ significa que una suposición sería mejor (por eso incluí modelos para la media y t-1); y quizá sea prudente mostrarse escéptico ante tal modelo. Además, cabe señalar que, como equipo, tratamos de mejorar los resultados del artículo con vistas a su publicación. Tal vez, para ayudar a demostrar la insignificancia de los resultados, podría simplemente mostrar un recuento de cuántas veces la media/última muestra supera o coincide con los modelos del artículo. (Basado tanto en RMSE como en $R^2$ el modelo medio batió a los modelos del papel en un subconjunto de 17/30 pruebas que estamos revisando actualmente).

32voto

Dipstick Puntos 4869

Tú mismo te has contestado:

He creado dos modelos adicionales (media y última muestra) que a menudo igualan o superan el RMSE de los modelos RF y ANN publicados en el artículo. El modelo medio sólo toma la media del entrenamiento y la utiliza en todas las predicciones. El conjunto de datos es una serie temporal (variable en el tiempo, normalmente 1-2 muestras por semana), por lo que el modelo de última muestra sólo utiliza el valor de la muestra anterior.

Has comparado el resultado con modelos triviales y superan al modelo. Esto es suficiente para descartar el modelo. Lo que hiciste es un procedimiento bastante estándar para validar modelos de series temporales.

Negativo $R^2$ son coherentes con sus puntos de referencia. De hecho, $R^2$ ya compara el modelo con el modelo medio porque se define como

$$ R^2 = 1 - \frac{\sum_i (y_i - \hat y_i)^2}{\sum_i (y_i - \bar y_i)^2} $$

por lo que el numerador es la suma de errores al cuadrado del modelo y el denominador es la suma de errores al cuadrado del modelo medio. Su modelo debe tener un error cuadrático menor que el modelo medio para que sea positivo.

¿Quizá los autores del artículo publicado no hicieron la comprobación de cordura? Muchos resultados de mierda se publican de alguna manera.

Me temo que si argumentos razonables como la comparación de los resultados con los puntos de referencia no convencen a tus colegas, dudo que "una prueba estadística" lo haga. Ya están dispuestos a ignorar los resultados que no les gustan, así que parece bastante inútil.

3voto

5ound Puntos 907

Aprovechando la respuesta de Tim. Está claro que ya has entrenado un modelo mejor, así que muestra sus resultados a tus colegas.

Sin embargo, aquí hay una nota: La puntuación R2 podría resultar una métrica poco fiable dependiendo del problema. Por ejemplo, un modelo de regresión que predice el precio de una acción al día siguiente. Cualquier pequeña cantidad de correlación más allá de una suposición aleatoria (o convergencia a la media) ¡te haría millonario!

En resumen, no todas las puntuaciones R2 bajas son malas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X