Estoy haciendo la selección de características con el método wrapper en conjuntos de datos de microarrays. He leído varios artículos y respuestas aquí sobre la evaluación de validación cruzada (CV) en la selección de características. Especialmente las respuestas aquí , aquí y aquí son muy útiles. Sé que es más robusto utilizar el CV anidado, así que lo implementé con la manera del CV 10. Sin embargo, hay algunos puntos que no están claros para mí.
Lo que he hecho hasta ahora es: He dividido las muestras con CV estratificado para entrenar y probar las muestras. En cada bucle de la CV externa he realizado la selección de características con la CV interna en los datos de entrenamiento. Así que hay datos de entrenamiento con características seleccionadas y datos de prueba con características seleccionadas. El clasificador se entrena con los datos de entrenamiento y se prueba con los datos de prueba. Los errores de cada bucle se promedian al final y ésta es la tasa de error del método que he utilizado.
Preguntas :
-
¿Debo realizar este CV anidado para diferentes semillas? Si es así, ¿para cuántas semillas? o ¿debo realizarlo sólo una vez?
Para el modelo final realicé los mismos procedimientos que realicé en un bucle de CV externo, pero esta vez con todo el conjunto de datos. Así que esta parte no tiene ninguna relación con el CV anidado. La selección de características se procesa de nuevo en todo el conjunto de datos, independientemente de los conjuntos de características que se seleccionan en el CV anidado. Tampoco hay muestras de entrenamiento ni de prueba. ¿Es correcto?
-
¿Cómo debo evaluar el rendimiento del modelo final? He aplicado 100 veces el CV con el modelo final en el conjunto de datos con las características seleccionadas y luego las he promediado. ¿Es un enfoque correcto?
-
¿Cómo puedo informar sobre la precisión y las características seleccionadas? ¿Debo realizar los procedimientos anteriores para diferentes semillas (por ejemplo, 10 semillas diferentes) y luego decir que por ejemplo:
- para seed1: 6 características seleccionadas, %81 de precisión del método general (CV anidado), %89 con 100 veces de precisión del CV.
- para seed2: 8 características seleccionadas, %82 de precisión del método general (CV anidado), %90 con 100 veces de precisión del CV.
-
He visto que puedo dar la mejor y la media de precisión del 10-foldCV en algunos subconjuntos de genes óptimos seleccionados por el programa en el modelo final. Si es apropiado utilizar 100 veces CV para la evaluación del modelo final, ¿qué 10-foldCV de estos cien?