Se trata de una pregunta que forma parte de la revisión de un artículo ya publicado. Los autores del artículo publican $R^2$ y RMSE en el entrenamiento, pero sólo RMSE en la validación. Utilizando el código publicado, $R^2$ puede calcularse con los datos de validación y, de hecho, es negativo en todos los casos, mientras que el RMSE coincide con lo publicado. Se trata de una tarea de regresión más que de clasificación. Hay aproximadamente $45$ casos de prueba mediante $2$ modelos separados (RF, RNA), lo que significa que alrededor de $90$ modelos generados y $90$ predicciones. Sólo $2$ - $3$ de la $90$ predicciones tienen un $R^2$ y todos ellos están por debajo de $0.1$ ¡!
Estoy intentando convencer a mi equipo de que los resultados son malos, pero quieren ignorar la $R^2$ y sugieren que basta con un RMSE "bueno". El RMSE parece correcto, pero basado en una corazonada (negativa $R^2$ ) Hice dos modelos adicionales (media y última muestra) que a menudo igualan o superan el RMSE de los modelos RF y ANN publicados en el artículo. El modelo medio sólo toma la media del entrenamiento y la utiliza en todas las predicciones. El conjunto de datos es una serie temporal (variable en el tiempo, normalmente $1$ - $2$ muestras por semana), por lo que el modelo de la última muestra sólo utiliza el valor de la muestra anterior.
Como mi equipo quiere ignorar lo malo $R^2$ ¿hay alguna otra forma de demostrar que los modelos RF y RNA del artículo no producen resultados estadísticamente relevantes? Tal vez haya una prueba estadística que pueda utilizar para demostrar que los resultados no son significativos, pero no sé por dónde empezar.
Por otra parte, el problema en este ámbito también suele formularse como una tarea de clasificación binaria con un umbral determinado. En este sentido, el código del artículo intenta calcular manualmente el AUROC, pero parece que no lo consigue. Sin embargo, los detalles del cálculo del AUROC no se proporcionan en el artículo, ¡dejando que los lectores asuman que se aplica el método AUROC estándar! En lugar de utilizar una biblioteca para calcular el AUROC, el código lo calcula manualmente utilizando algún tipo de proceso de bootstrapping. Cuando utilizo los métodos de puntuación de sklearn para el AUROC, parece que todos los $90$ modelos están alrededor o por debajo $0.5$ (es decir, completamente aleatorio o incluso roto) Quizás $1$ - $3$ modelos (de $90$ ) hacer una predicción en torno a $0.6$ o $0.7$ . Una vez más, el equipo quiere ignorar esto, ya que el objetivo principal del documento es aparentemente la tarea de regresión.
Edición: Con respecto a un negativo $R^2$ los autores calculan $R^2$ utilizando sklearn's r2_score
método ( https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html ). Según la documentación "La mejor puntuación posible es 1,0 y puede ser negativa (porque el modelo puede ser arbitrariamente peor)".
Edición 2: Esta pregunta se publicó anteriormente en Data Science ( https://datascience.stackexchange.com/questions/112554/showing-machine-learning-results-are-statistically-irrelevant ) pero se trasladó aquí tras recibir comentarios. Antes de mover, la retroalimentación allí sugirió algunas cosas, incluyendo: $0$ o menos $R^2$ significa que una suposición sería mejor (por eso incluí modelos para la media y t-1); y quizá sea prudente mostrarse escéptico ante tal modelo. Además, cabe señalar que, como equipo, tratamos de mejorar los resultados del artículo con vistas a su publicación. Tal vez, para ayudar a demostrar la insignificancia de los resultados, podría simplemente mostrar un recuento de cuántas veces la media/última muestra supera o coincide con los modelos del artículo. (Basado tanto en RMSE como en $R^2$ el modelo medio batió a los modelos del papel en un subconjunto de 17/30 pruebas que estamos revisando actualmente).