Una diferencia importante en la forma habitual de aplicar los métodos de validación cruzada y de fuera de la base es que la mayoría de la gente sólo aplica la validación cruzada una vez (es decir, cada caso se prueba exactamente una vez), mientras que la validación fuera de la red se realiza con un gran número de repeticiones/iteraciones. En esa situación, la validación cruzada está sujeta a una mayor varianza debido a la inestabilidad del modelo. Sin embargo, esto puede evitarse utilizando, por ejemplo, iteraciones/repeticiones $k$ -validación cruzada. Si se hace así, al menos para los conjuntos de datos espectroscópicos con los que he estado trabajando, el error total de ambos esquemas de remuestreo parece ser el mismo en la práctica.
Se desaconseja la validación cruzada con exclusión, ya que no existe la posibilidad de reducir la varianza del tipo de inestabilidad del modelo y hay algunos clasificadores y problemas en los que presenta un enorme sesgo pesimista.
.632 bootstrap hace un trabajo razonable siempre que el error de remuestreo que se mezcla no tenga un sesgo demasiado optimista. (Por ejemplo, para los datos con los que trabajo, matrices muy anchas con muchas variantes, no funciona muy bien, ya que los modelos son propensos a un grave sobreajuste). Esto significa también que evitar el uso del bootstrap de 0,632 para comparar modelos de diversa complejidad. Con el bootstrap de .632+ no tengo experiencia: si el sobreajuste ocurre y se detecta adecuadamente, será igual a la estimación original fuera del bootstrap, así que me quedo con el oob simple o la validación cruzada iterada/repetida para mis datos.
Literatura:
- Kohavi, R.: A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection Artificial Intelligence Proceedings 14th International Joint Conference, 20 -- 25. August 1995, Montréal, Québec, Canada, 1995, 1137 - 1145.
(un clásico)
Dougherty y Braga-Neto tienen varias publicaciones sobre el tema Por ejemplo
-
Dougherty, E. R. y otros. : Performance of Error Estimators for Classification Current Bioinformatics, 2010, 5, 53-67
-
Beleites, C. y otros. : Reducción de la varianza en la estimación del error de clasificación utilizando conjuntos de datos dispersos Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Tenemos una comparación de hacer la validación cruzada sólo una vez o iterar/repetir, y comparamos eso con fuera de bootstrap y .632 bootstrap también para datos particularmente amplios con multi-colinealidad.
-
Kim, J.-H.: Estimación de la tasa de error de clasificación: Repeated cross-validation, repeated hold-out and bootstrap, Computational Statistics & Data Analysis , 2009, 53, 3735 - 374
También encuentra que la repetición/reiteración $k$ -La validación cruzada doble y la fuera de la base tienen un rendimiento similar (a diferencia de hacer la validación cruzada sólo una vez).
Elección de la métrica:
-
exactitud (del que @FrankHarrell te dirá que es una mala elección ya que no es un regla de puntuación adecuada ) está sujeta a una alta varianza porque cuenta cada caso como completamente correcto o completamente incorrecto, incluso si el clasificador predijo, por ejemplo, sólo un 60 % de probabilidad posterior de que el caso de prueba perteneciera a la clase en cuestión. Una regla de puntuación adecuada es, por ejemplo, la puntuación de Brier, que está estrechamente relacionada con el error cuadrático medio en la regresión.
-
El error cuadrático medio analógico está disponible para proporciones como la precisión, la sensibilidad, la especificidad y los valores predictivos: Beleites, C. y otros. : Validación de modelos de clasificación blanda utilizando membresías de clase parciales: Un concepto ampliado de sensibilidad & Co. aplicado a la clasificación de tejidos de astrocitoma, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016/j.chemolab.2012.12.003 (página de resumen con enlace al preprint también)
Mi objetivo final es poder decir con cierta seguridad que un método de aprendizaje automático es superior a otro para un conjunto de datos concreto.
-
Utiliza una prueba emparejada para evaluarlo. Para comparar proporciones, echa un vistazo a la prueba de McNemar.
-
La respuesta a esto se verá afectada por la elección de la métrica. Como las medidas de error de tipo regresión no tienen el paso de "endurecimiento" de cortar las decisiones con un umbral, suelen tener menos varianza que sus homólogas de clasificación. Las métricas como la precisión, que son básicamente proporciones, necesitarán enorme número de casos de prueba para establecer la superioridad de un clasificador sobre otro.
Fleiss: "Métodos estadísticos para tasas y proporciones" da ejemplos (y tablas) para no emparejado comparación de proporciones. Para que te hagas una idea de lo que quiero decir con "tamaños de muestra enormes", echa un vistazo a la imagen en mi respuesta a esta otra pregunta . Las pruebas emparejadas, como la de McNemar, necesitan menos casos de prueba, pero en el mejor de los casos la mitad (?) del tamaño de la muestra necesaria para la prueba no emparejada.
-
Para caracterizar el rendimiento de un clasificador (endurecido), normalmente se necesita una curva de trabajo de al menos dos valores como el ROC (sensibilidad frente a especificidad) o similares.
Rara vez utilizo la precisión global o el AUC, ya que mis aplicaciones suelen tener restricciones, por ejemplo, que la sensibilidad es más importante que la especificidad, o que deben cumplirse ciertos límites en estas medidas. Si opta por las características de suma de "un solo número", asegúrese de que el punto de trabajo de los modelos que está mirando se encuentra realmente en un rango sensato.
-
Para la precisión y otras medidas de rendimiento que resumen el rendimiento de varias clases según las etiquetas de referencia, asegúrese de tener en cuenta la frecuencia relativa de las clases que encontrará en la aplicación, que no es necesariamente la misma que en sus datos de entrenamiento o de prueba.
-
Provost, F. y otros. : The Case Against Accuracy Estimation for Comparing Induction Algorithms En las actas de la decimoquinta conferencia internacional sobre aprendizaje automático, 1998
editar: comparar múltiples clasificadores
He estado pensando en este problema durante un tiempo, pero todavía no he llegado a una solución (ni he conocido a nadie que tuviera una solución).
Esto es lo que tengo hasta ahora:
Por el momento, he decidido que "la optimización es la raíz de todos los males", y adoptar un enfoque muy diferente en su lugar:
Decido, en la medida de lo posible, por el conocimiento experto del problema en cuestión. De hecho, eso permite reducir bastante las cosas, de modo que a menudo puedo evitar la comparación de modelos. Cuando tengo que comparar modelos, intento ser muy abierto y claro recordando a la gente la incertidumbre de la estimación del rendimiento y que, en particular, la comparación de múltiples modelos es, según se sabe, un problema aún no resuelto.
Edición 2: pruebas pareadas
En $n$ modelos, puede hacer $\frac{1}{2} (n^2 - n)$ comparaciones entre dos modelos diferentes (que es una situación de comparación múltiple masiva), no sé cómo hacerlo correctamente. Sin embargo, el emparejado de la prueba sólo se refiere al hecho de que como todos los modelos se prueban con exactamente los mismos casos de prueba, se pueden dividir los casos en "fáciles" y "difíciles" por un lado, para los que todos los modelos llegan a una predicción correcta (o incorrecta). No ayudan a distinguir entre los modelos. Por otro lado, están los casos "interesantes", cuya predicción es correcta para algunos modelos, pero no para otros. Sólo hay que tener en cuenta estos casos "interesantes" para juzgar la superioridad, ni los casos "fáciles" ni los "difíciles" ayudan a ello. (Así es como entiendo la idea de la prueba de McNemar).
Para la comparación masiva entre $n$ Supongo que un problema es que, a menos que tengas mucha suerte, cuantos más modelos compares menos casos podrás excluir de las consideraciones posteriores: incluso si todos los modelos son realmente iguales en su rendimiento general, cada vez es menos probable que un caso acabe siendo siempre predicho correctamente (o siempre mal) por $n$ modelos.