9 votos

¿Está utilizando los mismos datos para selección y validación cruzada sesgada o no?

Tenemos un pequeño conjunto de datos (alrededor de 250 muestras * 100 características) en la que queremos construir un clasificador binario después de seleccionar el mejor subconjunto. Digamos que tenemos la partición de los datos en:

El entrenamiento, Validación y Prueba

Para la selección de características, se aplica una envoltura modelo basado en la selección de características para optimizar el desempeño de los clasificadores de X, Y y Z, por separado. En este pre-procesamiento de paso, utilizamos los datos de entrenamiento para el entrenamiento de los clasificadores y validación de datos para la evaluación de cada candidato en función de subconjunto.

Al final, queremos comparar los diferentes clasificadores (X, y, Z). Por supuesto, podemos usar la prueba de la parte de los datos para tener una comparación justa y evaluación. Sin embargo, en mi caso, los datos de la prueba sería muy pequeño (alrededor de 10 a 20 muestras) y por lo tanto, quiero solicitar la validación cruzada para la evaluación de los modelos.

La distribución de los ejemplos positivos y negativos es muy poco equilibrada (8:2). Así, una de validación cruzada podía faltar-nos conducen en la evaluación del rendimiento. Para superar esto, se planea tener la prueba de la porción (de 10 a 20 muestras) como un segundo método de comparación y validación de la validación cruzada.

En resumen, estamos en la partición de los datos en el entrenamiento, validación y prueba. El entrenamiento y la validación de las piezas se utilizan para la selección de características. Entonces, la validación cruzada de los mismos datos se aplica a la estimación de los modelos. Finalmente, la prueba se utiliza para validar la validación cruzada, dado el desequilibrio de los datos.

La pregunta es: Si vamos a utilizar los mismos datos (formación+validación) utilizados en la selección de las características de optimizar el rendimiento de los clasificadores de X, Y y Z, podemos aplicar la validación cruzada de los mismos datos (formación+de validación) se utiliza para la selección de características para medir el rendimiento final y comparar los clasificadores?

No sé si esta opción podría conducir a una visión sesgada de la cruz-la validación de la medida y el resultado de las naciones unidas justificado a la comparación o no.

5voto

Aaron Smith Puntos 123

Creo que es parcial. Aplicación de FS en partición N-1 y prueba en la última partición. y combinan las características de todo pliegue de alguna manera (Unión/intersección/o algún problema específico).

1voto

Iain Puntos 2721

¿Tratas de LOOCV? Creo que es apto para entrenar, cuando tengas muy menos datos de entrenamiento. Para responder a su pregunta, que no le daría los mejores resultados de simplemente porque podría overfit y darle engañosa resultados, tal que el clasificador no realizará grandes en otros datos, que no ha visto.

0voto

studgeek Puntos 111

Se podría hacer lo siguiente para comparar el rendimiento de los clasificadores

Tome su conjunto de entrenamiento y entrenar en cada posible conjunto de características. Para cada conjunto de características, minimizar los parámetros y construir el modelo que se adapte al conjunto de entrenamiento. Ahora, una vez que los modelos se construyen para todos los conjuntos de características, es decir, que tiene un modelo para cada conjunto de características, validar los modelos construidos en diferentes conjuntos de características) en el conjunto de validación y seleccione el modelo construido para un determinado subconjunto del conjunto de características que le da el mínimo error en el conjunto de validación. De esta manera, se asegura de que el modelo construido se ha encajan bien no sólo el conjunto de entrenamiento, sino también el conjunto de validación.

Ahora, tome este modelo construido y probarlo en el conjunto de pruebas. Esto le dirá qué tan bien el clasificador realiza una vez que se ejecuta sobre un conjunto de datos que no fue utilizado para el entrenamiento ni para la validación. También, se han seleccionado ese conjunto de características que encaja en el conjunto de entrenamiento y también el conjunto de validación.

0voto

lrrrgg Puntos 38

Si es posible es mejor retener algunos datos adicionales para la validación cruzada. Por ejemplo se puede utilizar para validar los algoritmos mediante la construcción de curvas de aprendizaje. Estas curvas se debe construir en el conjunto de datos que no ha sido usado antes.

Incluso si simplemente desea seleccionar un algoritmo que le da el más alto de la F1 score, sería necesario el uso adicional de validación cruzada para el conjunto de datos para hacerlo. Prueba de conjunto debe ser reservado para el informe final de la exactitud de la solución (rendimiento esperado de los elegidos clasificador en invisible de datos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X