13 votos

Hay usos contemporáneos de coleando?

La pregunta: Bootstrap es superior a colear; sin embargo, me pregunto si hay casos en los que colea es el único o, al menos, una opción viable para la caracterización de la incertidumbre de las estimaciones de los parámetros. También, en situaciones prácticas de cómo parcial/inexacta está coleando relativa al arranque, y puede plegarse resultados proporcionan un análisis preliminar antes de una más complicado bootstrap es desarrollado?

Un poco de contexto: Un amigo es el uso de una caja negra de la máquina algoritmo de aprendizaje (MaxEnt) para clasificar los datos geográficos que es "presencia " sólo" o "positivos". Modelo General de evaluación se realiza generalmente mediante la validación cruzada y curvas ROC. Sin embargo, ella está usando la salida del modelo para obtener una única numérico descripción de la salida del modelo y desea un intervalo de confianza alrededor de ese número; Coleando parece ser una manera razonable para caracterizar la incertidumbre en torno a este valor. Bootstrapping no parece relevante, ya que cada punto de datos es una ubicación única en un mapa que no se puede volver a tomar muestras con reemplazo. El programa de modelado en sí mismo puede ser capaz de proporcionar en última instancia lo que ella necesita; sin embargo, estoy interesado en general, si/cuando coleando puede ser útil.

5voto

cbeleites Puntos 12461

Si usted toma coleando, no sólo para incluir a dejar-uno-fuera pero cualquier tipo de remuestreo-sin-reemplazo como $k$veces los procedimientos, considero que es una opción viable y lo usan regularmente, por ejemplo, en Beleites et al.: Espectroscopia Raman de clasificación de astrocitoma tejidos: suaves, información de referencia. Anal Bioanal Chem, 2011, 400, 2801-2816

ver también: intervalo de Confianza para la cruz-validar la exactitud de la clasificación


Evitar yo LOO por varias razones y en lugar de usar un iterado/repetido $k$veces esquema. En mi campo (química/espectroscopia/quimiometría), de la validación cruzada es mucho más común de lo que fuera-de-arranque de validación. Para nuestros datos/typcial aplicaciones se encontró que el $i$ veces reiterado $k$-fold cross validation y $i \cdot k$ iteraciones de bootstrap estimaciones de rendimiento son muy similares error total [Beleites et al.: De reducción de varianza en la estimación de error de clasificación utilizando conjuntos de datos dispersos. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.].

La ventaja particular veo para mirar a afirmar cruz de validación de esquemas más de bootstrapping es que estoy muy fácilmente puede derivar de la estabilidad/modelo medidas de la incertidumbre que puede ser intuitivamente explica, y es separado por dos differnt de las causas de la variación de la incertidumbre en la medición de rendimiento que están más entrelazados en el fuera-de-arranque de las mediciones.
Una línea de razonamiento que me lleva a la cruz de validación/coleando está mirando a la robustez del modelo: validación cruzada corresponde más directamente a las preguntas del tipo "¿Qué pasa con mi modelo si me exchange $x$ de los casos de $x$ nuevos casos?" o "¿Cómo robusto es mi modelo frente a la perturbación de los datos de entrenamiento mediante el intercambio de $x$ de los casos?" Esto es aplicable al arranque, pero menos directamente.

Tenga en cuenta que yo no intenta obtener los intervalos de confianza, debido a que mis datos son inherentemente agrupada ($n_s$ espectros de $n_p \ll n_s$ de los pacientes), así que prefiero informe

  1. un (conservador) binomial intervalo de confianza utilizando el promedio de rendimiento observadas y $n_p$ tamaño de la muestra y

  2. la varianza observo entre la $i$ iteraciones de la validación cruzada. Después de $k$ pliegues, cada caso es probado exactamente una vez, aunque por diferentes sustituto de los modelos. Por lo tanto, cualquier tipo de variación observada entre el $i$ carreras debe ser causados por el modelo de inestabilidad.

Normalmente, es decir, si el modelo está bien establecido, 2. sólo es necesario demostrar que es mucho menor que la varianza de 1., y que el modelo es, por tanto, razonablemente estable. Si 2. resulta ser no significativa, es el momento de considerar la posibilidad de agregados modelos: modelo de agregación de ayuda sólo de la variación causada por el modelo de inestabilidad, no puede reducir la varianza de la incertidumbre en la medición del rendimiento se debe a que el número finito de casos de prueba.

Tenga en cuenta que para construir el rendimiento de los intervalos de confianza para estos datos, me gustaría al menos considerar la posibilidad de que la varianza observada entre el $i$ carreras de la validación cruzada es la de la media de $k$ modelos de esa inestabilidad, es decir, yo diría que el modelo de la inestabilidad de la varianza se $k \cdot $ varianza observada entre la validación se ejecuta; además de la varianza debido a lo finito número de caso - para classifiation (éxito/error) medidas de desempeño, esta es la binomial. Para las medidas continuas, me gustaría probar para derivar la varianza de dentro de la validación cruzada ejecutar variación, $k$, y la estimación de la inestabilidad del tipo de varianza para el $k$ modelos derivados de la

La ventaja de la validación cruzada aquí es que se obtiene una separación clara entre la incertidumbre causada por el modelo de la inestabilidad y la incertidumbre causada por un número finito de casos de prueba. La correspondiente desventaja es que si usted se olvida de tomar la número finito de casos reales en cuenta, será severamente a una subestimación de la verdadera incertidumbre. Sin embargo, esto sucedería en el caso de arranque también (aunque en menor medida).


Hasta ahora, el razonamiento se concentra en la medición del rendimiento para el modelo que se derivan para un determinado conjunto de datos. Si usted se considera un conjunto de datos de la aplicación y del tamaño de la muestra, hay una tercera contribución a la varianza, que en lo fundamental no puede ser medido por el remuestreo de validación, ver, por ejemplo, Bengio Y Grandvalet: No Imparcial Estimador de la Varianza de K-Fold Cross-Validation, Diario de Aprendizaje de la Máquina de la Investigación, 5, 1089-1105 (2004). , también tenemos cifras que muestran estas tres contribuciones en Beleites et al.: Tamaño de la muestra planificación de los modelos de clasificación., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016/j.de aca.2012.11.007)
Creo que lo que pasa aquí es el resultado de la suposición de que el remuestreo es similar a dibujar una nueva muestra de su descomposición.

Esto es importante si el modelo de construcción de algoritmos/estrategias/heurística se comparan en vez de construir un modelo en particular para la aplicación y validación de este modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X