Entender la validación cruzada estratificada

Question

Entender la validación cruzada estratificada

Preguntado el 7 de Febrero, 2013: Cuando se hizo la pregunta
98846 visitas: Cuantas visitas ha tenido la pregunta
5 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En validación cruzada estratificada k-fold Los pliegues se seleccionan para que el valor medio de la respuesta es aproximadamente igual en todos los pliegues. En En el caso de una clasificación dicotómica, esto significa que cada pliegue contiene aproximadamente las mismas proporciones de los dos tipos de etiquetas de clase etiquetas.

Digamos que utilizamos el CV para estimar el rendimiento de un predictor o estimador. ¿Qué sería? valor medio de la respuesta (MRV) en este contexto? ¿Sólo el valor medio del predictor/estimador?
¿En qué casos "logrando aproximadamente el mismo MRV" en todos los pliegues sea realmente importante ? En otras palabras, ¿cuáles son las consecuencias de no ¿hacerlo?

Preguntado el 7 de Febrero, 2013 por Stéphane

Answer 1

5 Respuestas

Answer 2

54voto

wildjiji Puntos 176

El artículo de validación cruzada en la Enciclopedia de Sistemas de Bases de Datos dice:

La estratificación es el proceso de reordenación de los datos para garantizar cada pliegue sea un buen representante del conjunto. Por ejemplo, en un problema de clasificación binaria en el que cada clase comprende el 50% de los de los datos, lo mejor es organizar los datos de forma que en cada pliegue, cada clase comprenda alrededor de la mitad de las instancias.

Sobre la importancia de la estratificación, Kohavi (Un estudio sobre la validación cruzada y el bootstrap para la estimación de la precisión y la selección de modelos) concluye que:

La estratificación es generalmente un esquema mejor, tanto en términos de sesgo como de varianza, cuando se compara con la validación cruzada regular.

Respondido el 16 de Octubre, 2013 por wildjiji (176 Puntos )

Answer 3

45voto

Heather Puntos 21

La estratificación pretende garantizar que cada pliegue sea representativo de todos los estratos de los datos. Por lo general, esto se hace de forma supervisada para la clasificación y pretende garantizar que cada clase esté (aproximadamente) igualmente representada en cada pliegue de prueba (que, por supuesto, se combinan de forma complementaria para formar pliegues de formación).

La intuición detrás de esto se relaciona con el sesgo de la mayoría de los algoritmos de clasificación. Tienden a ponderar cada instancia por igual, lo que significa que las clases sobrerrepresentadas reciben demasiado peso (por ejemplo, optimizando la medida F, la precisión o una forma complementaria de error). La estratificación no es tan importante para un algoritmo que pondera cada clase por igual (por ejemplo, optimizando Kappa, Informedness o ROC AUC) o según una matriz de costes (por ejemplo, que está dando un valor a cada clase correctamente ponderada y/o un coste a cada forma de error de clasificación). Véase, por ejemplo D. M. W. Powers (2014), What the F-measure doesn't measure: Características, defectos, falacias y correcciones. http://arxiv.org/pdf/1503.06410

Una cuestión específica que es importante incluso en los algoritmos insesgados o equilibrados es que tienden a no ser capaces de aprender o probar una clase que no está representada en absoluto en un pliegue, y además incluso el caso en el que sólo una clase está representada en un pliegue no permite que se realice o evalúe la generalización. Sin embargo, incluso esta consideración no es universal y, por ejemplo, no se aplica tanto al aprendizaje de una clase, que trata de determinar lo que es normal para una clase individual, y efectivamente identifica los valores atípicos como una clase diferente, dado que la validación cruzada trata de determinar las estadísticas, no de generar un clasificador específico.

Por otro lado, la estratificación supervisada compromete la pureza técnica de la evaluación, ya que las etiquetas de los datos de prueba no deberían afectar al entrenamiento, pero en la estratificación se utilizan en la selección de las instancias de entrenamiento. También es posible la estratificación no supervisada, que se basa en la dispersión de datos similares y que sólo tiene en cuenta los atributos de los datos, no la verdadera clase. Véase, por ejemplo http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 N. A. Diamantidis, D. Karlis, E. A. Giakoumakis (1997), Estratificación no supervisada de la validación cruzada para la estimación de la precisión.

La estratificación también puede aplicarse a la regresión en lugar de a la clasificación, en cuyo caso, al igual que la estratificación no supervisada, se utiliza la similitud en lugar de la identidad, pero la versión supervisada utiliza el valor verdadero conocido de la función.

Otras complicaciones son las clases raras y la clasificación multietiqueta, en la que las clasificaciones se realizan en múltiples dimensiones (independientes). En este caso, las tuplas de las etiquetas verdaderas en todas las dimensiones pueden tratarse como clases a efectos de la validación cruzada. Sin embargo, no todas las combinaciones se dan necesariamente, y algunas pueden ser raras. Las clases raras y las combinaciones raras suponen un problema en el sentido de que una clase/combinación que aparece al menos una vez pero menos de K veces (en K-CV) no puede representarse en todos los pliegues de prueba. En estos casos, se podría considerar una forma de boostrapping estratificado (muestreo con reemplazo para generar un pliegue de entrenamiento de tamaño completo con repeticiones esperadas y un 36,8% esperado no seleccionado para la prueba, con una instancia de cada clase seleccionada inicialmente sin reemplazo para el pliegue de prueba).

Otro enfoque de la estratificación multietiqueta es tratar de estratificar o hacer un bootstrap de cada dimensión de clase por separado sin tratar de asegurar una selección representativa de las combinaciones. Con L etiquetas y N instancias y Kkl instancias de la clase k para la etiqueta l, podemos elegir al azar (sin reemplazo) del conjunto correspondiente de instancias etiquetadas Dkl aproximadamente N/LKkl instancias. Esto no garantiza un equilibrio óptimo, sino que busca el equilibrio de forma heurística. Esto puede mejorarse prohibiendo la selección de etiquetas en o por encima de la cuota, a menos que no haya opción (ya que algunas combinaciones no se dan o son raras). Los problemas tienden a significar que hay muy pocos datos o que las dimensiones no son independientes.

Respondido el 15 de Julio, 2015 por Heather (21 Puntos )

Answer 4

18voto

Elzarei Puntos 8

Una explicación rápida y sucia es la siguiente:

Validación cruzada : Divide los datos en k pliegues "aleatorios"

Valoración cruzada estratificada : Divide los datos en k pliegues, asegurándose de que cada pliegue es un representante adecuado de los datos originales. (distribución de clases, media, varianza, etc.)

Ejemplo de 5 pliegues Validación cruzada :

Ejemplo de 5 pliegues Validación cruzada estratificada :

Respondido el 5 de Marzo, 2020 por Elzarei (8 Puntos )

Answer 5

6voto

enviable Puntos 1

El valor medio de la respuesta es aproximadamente igual en todos los pliegues es otra forma de decir que la proporción de cada clase en todos los pliegues es aproximadamente igual.

Por ejemplo, tenemos un conjunto de datos con 80 registros de clase 0 y 20 de clase 1. Podemos obtener un valor medio de respuesta de (80*0+20*1)/100 = 0,2 y queremos que 0,2 sea el valor medio de respuesta de todos los pliegues. Esta es también una forma rápida en EDA para medir si el conjunto de datos dado está desequilibrado en lugar de contar.

Respondido el 23 de Junio, 2017 por enviable (1 Puntos )

Answer 6

2voto

user1323995 Puntos 40

Esta página de la documentación de scikit-learn tiene una explicación visual bastante agradable de cuáles son las diferencias entre los enfoques de muestreo de validación cruzada. Aquí hay algunas imágenes para los métodos que pidió tomadas de la página mencionada.

Como puede ver, con KFold CV se dividen los datos en partes iguales y se eligen conjuntos de entrenamiento y de prueba. Para este método, le sugiero que incluya un proceso de barajado de muestras para evitar cualquier sesgo eventual en esta división.

En el caso de KFold CV estratificado, se considera la posibilidad de dividir los conjuntos de entrenamiento y prueba para cada estrato, ya que hay un desequilibrio en el tamaño de las muestras. Esto es esencial para los problemas de clasificación, pero puede considerar su uso al hacer la regresión si puede dividir los datos en clusters.

Respondido el 9 de Diciembre, 2019 por user1323995 (40 Puntos )

Entender la validación cruzada estratificada

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Entender la validación cruzada estratificada

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: