¿Cómo determinaron estos investigadores el intervalo de confianza del AUROC utilizando el remuestreo pero sin volver a entrenar el modelo?

Question

¿Cómo determinaron estos investigadores el intervalo de confianza del AUROC utilizando el remuestreo pero sin volver a entrenar el modelo?

Preguntado el 22 de Agosto, 2019: Cuando se hizo la pregunta
471 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En este artículo de Nature con el respaldo de Google, los investigadores desarrollan y luego validan externamente un modelo de aprendizaje profundo para predecir el cáncer de pulmón mediante el uso de tomografías. En sus resultados de validación interna, podemos ver que incluyeron intervalos de confianza del 95% para su AUROC:

En sus métodos, afirman:

Todos los intervalos de confianza se calcularon sobre la base de los percentiles de 1.000 remuestreos aleatorios (bootstraps) de los datos. Los intervalos de confianza Los intervalos de confianza para las diferencias se obtuvieron calculando la métrica de interés y luego calculando una diferencia lector-modelo en cada bootstrap. Los valores P para las comparaciones de sensibilidad y especificidad se calcularon mediante una prueba de permutación estándar utilizando 10.000 remuestreos aleatorios de los datos

Cuando leo cómo obtener intervalos de confianza utilizando el método bootstrap, lo que entiendo es que el modelo debe ser reentrenado para cada uno de los bootstrap, y que el estadístico se calcula para cada modelo reentrenado (y el modelo se aplica a los datos originales pre-bootstrap). Por ejemplo, la referencia. Esto implica que Google volvió a entrenar su modelo de aprendizaje profundo en un bootstrap de la muestra de entrenamiento 1000 veces para obtener estos intervalos. Parece mucho cálculo, pero es Google, así que vale. Hasta aquí todo bien.

Lo que no entiendo es cómo obtuvieron el intervalo de confianza para el AUROC en su estudio de validación externa que utilizó observaciones de otro centro:

En su artículo afirman explícitamente

El modelo no fue entrenado ni ajustado utilizando este conjunto de datos.

En la descripción de la figura, dicen:

Curva AUC para el conjunto de pruebas de datos independientes con n = 1.739 casos utilizando una prueba de permutación de dos caras con 10.000 remuestreos aleatorios de los datos.

He buscado cómo hacer una prueba de permutación, pero no encuentro una referencia que muestre el procedimiento exacto a seguir cuando se utiliza para calcular un intervalo de confianza para la validez externa de un modelo de predicción.

¿Cuál es el procedimiento genérico (de aplicación) para obtener este intervalo de confianza?

Puedo imaginar dos posibles procedimientos:

Procedimiento 1:

Volver a muestrear la muestra de prueba (con reemplazo, es decir, obtener un bootstrap)
Aplicar el modelo de predicción para obtener estimaciones de riesgo
Calcular la estadística
Repite 1-3 n veces se utilizan los percentiles 0,025 y 0,975 de la estadística para obtener el IC del 95%.

Procedimiento 2:

Calcule el AUC en la muestra de prueba original (llámelo AUROC_original)
Permutar aleatoriamente las etiquetas de la muestra de prueba para romper la relación entre las características y las etiquetas
Aplique el modelo a esta muestra y obtenga el AUROC (AUROC_i)
Repite 2-3 n veces y luego utilizar la distribución de todos los n AUROC_i's (que asumo es la distribución de la hipótesis nula, es decir, los posibles valores de AUROC que obtendríamos si el modelo fuera inútil) para inferir la distribución alrededor de AUROC_original. Ni idea de si esto es válido o cómo se haría. Supongo que no se puede añadir simplemente la diferencia entre el percentil 50 y AUROC_original ya que el AUROC está acotado entre cero y uno. ¿Tal vez habría que utilizar las propiedades de, por ejemplo, la distribución binomial?

Cualquier ayuda (con referencias) se agradecería. Mi objetivo es poder crear intervalos de confianza para las estadísticas de un modelo de aprendizaje automático validado en una muestra externa grande. No quiero volver a entrenar el modelo en esta muestra externa porque me gustaría entender qué rendimiento tendría mi modelo si se generalizara allí, dado que los parámetros del modelo no están sujetos a cambios.

Otro caso de uso es la validación del rendimiento de un modelo propio que no puede ser reentrenado con datos locales. Imagínese un escenario en el que necesita el intervalo de confianza de varias estadísticas como la puntuación Brier, AUROC, AUPRC para poder comparar dos modelos propios.

Preguntado el 22 de Agosto, 2019 por ray man

Answer 1

1 Respuestas

Answer 2

2voto

FAYVICTORIA Puntos 1

Creo (pero no estoy seguro, para eso tendrás que preguntar a los autores) que puede ser más sencillo de lo que piensas. Incluso un modelo idéntico tiene un valor AUROC diferente según el conjunto de datos utilizado para calcularlo.

Supongamos que tenemos un conjunto de datos $\{x_1, \ldots, x_n\}$ y algún modelo $M$ . A continuación, podemos calcular su AUROC sobre este conjunto de datos:

$\text{AUROC}(x_1, \ldots, x_n | M).$

Sin embargo, también podemos calcular el AUROC sobre otro conjunto de datos $\{y_1, \ldots y_k\}$ :

$\text{AUROC}(y_1, \ldots, y_k | M).$

Esto da un valor AUROC diferente para el mismo modelo. He ojeado el artículo sin leerlo en detalle, y lo que me ha parecido que han hecho los autores es:

Utilizar un conjunto de datos de entrenamiento $D_{tr} = \{x_1, \ldots, x_N\}$ para entrenar un modelo $M$ .
Calcular el AUROC en el conjunto de datos de entrenamiento: $\text{AUROC}_{tr} = \text{AUROC}(x_1, \ldots, x_n | M).$
Crear 10.000 muestras bootstrap $(D_{tr, i}^*)_{i=1}^{10000}$ del conjunto de datos de entrenamiento, es decir, para cada $i$ , $D_{tr,i}^* = \{x_{i, 1}^*, \ldots x_{i, n}^*\}$ es otra longitud $N$ muestra creada por muestreo con reemplazo de $D_{tr}$ .
Para cada $D_{tr, i}^*$ calcular el AUROC teniendo en cuenta el original modelo $M$ : $\text{AUROC}_{tr, i}^* = \text{AUROC}(x_{i, 1}^*, \ldots x_{i, n}^* | M).$ Estos se utilizan para construir los intervalos de confianza para el AUROC de entrenamiento. Creo que, en el documento, sólo utilizaron los valores 250 y 9.750 más altos para obtener un intervalo de confianza del 95%.
Dado un conjunto de datos de validación $\{y_1, \ldots, y_k\}$ Repita los pasos 2-4 para obtener los AUROC de validación: $\text{AUROC}_{val} = \text{AUROC}(y_1, \ldots y_k | M).$ $\text{AUROC}_{val, i}^* = \text{AUROC}(y_{i, 1}^*, \ldots y_{i, k}^* | M).$ Utilice los de abajo para obtener intervalos de confianza.

Todo esto puede hacerse sin necesidad de reentrenar el modelo (algo que no encuentro en mi breve exploración del documento). Es más o menos el primer procedimiento que sugieres, excepto que el modelo nunca se reentrena ni siquiera en las muestras de entrenamiento bootstrap.

¿Le parece plausible? Por supuesto, ¡siempre puedes preguntar a los autores! :)

Respondido el 11 de Septiembre, 2019 por FAYVICTORIA (1 Puntos )

0 votos

También me parece confuso porque en muchos otros sitios vuelven a entrenar el modelo en cada muestra bootstrap y evalúan en los puntos no seleccionados (probablemente inspirados en el método random forest). Es factible para algo como la regresión lineal pero para nada para el aprendizaje profundo. El enfoque que mencionas es más razonable pero no encuentro una buena fuente que justifique su uso.

Comentado el 9 de Octubre, 2020 por Michael

¿Cómo determinaron estos investigadores el intervalo de confianza del AUROC utilizando el remuestreo pero sin volver a entrenar el modelo?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo determinaron estos investigadores el intervalo de confianza del AUROC utilizando el remuestreo pero sin volver a entrenar el modelo?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: