4 votos

Evaluación del modelo final en la selección de características con validación cruzada anidada

Estoy haciendo la selección de características con el método wrapper en conjuntos de datos de microarrays. He leído varios artículos y respuestas aquí sobre la evaluación de validación cruzada (CV) en la selección de características. Especialmente las respuestas aquí , aquí y aquí son muy útiles. Sé que es más robusto utilizar el CV anidado, así que lo implementé con la manera del CV 10. Sin embargo, hay algunos puntos que no están claros para mí.

Lo que he hecho hasta ahora es: He dividido las muestras con CV estratificado para entrenar y probar las muestras. En cada bucle de la CV externa he realizado la selección de características con la CV interna en los datos de entrenamiento. Así que hay datos de entrenamiento con características seleccionadas y datos de prueba con características seleccionadas. El clasificador se entrena con los datos de entrenamiento y se prueba con los datos de prueba. Los errores de cada bucle se promedian al final y ésta es la tasa de error del método que he utilizado.

Preguntas :

  1. ¿Debo realizar este CV anidado para diferentes semillas? Si es así, ¿para cuántas semillas? o ¿debo realizarlo sólo una vez?

    Para el modelo final realicé los mismos procedimientos que realicé en un bucle de CV externo, pero esta vez con todo el conjunto de datos. Así que esta parte no tiene ninguna relación con el CV anidado. La selección de características se procesa de nuevo en todo el conjunto de datos, independientemente de los conjuntos de características que se seleccionan en el CV anidado. Tampoco hay muestras de entrenamiento ni de prueba. ¿Es correcto?

  2. ¿Cómo debo evaluar el rendimiento del modelo final? He aplicado 100 veces el CV con el modelo final en el conjunto de datos con las características seleccionadas y luego las he promediado. ¿Es un enfoque correcto?

  3. ¿Cómo puedo informar sobre la precisión y las características seleccionadas? ¿Debo realizar los procedimientos anteriores para diferentes semillas (por ejemplo, 10 semillas diferentes) y luego decir que por ejemplo:

    • para seed1: 6 características seleccionadas, %81 de precisión del método general (CV anidado), %89 con 100 veces de precisión del CV.
    • para seed2: 8 características seleccionadas, %82 de precisión del método general (CV anidado), %90 con 100 veces de precisión del CV.
  4. He visto que puedo dar la mejor y la media de precisión del 10-foldCV en algunos subconjuntos de genes óptimos seleccionados por el programa en el modelo final. Si es apropiado utilizar 100 veces CV para la evaluación del modelo final, ¿qué 10-foldCV de estos cien?

0voto

Eric Puntos 19

Me estoy enfrentando a problemas similares, así que intentaré dar algunas respuestas en la medida de mis conocimientos. Esta fuente ofrece algunas ideas y referencias.

  1. Sí, la mejor práctica es repetir ambos bucles CV con diferentes inicializaciones aleatorias. De lo contrario, puede obtener resultados demasiado optimistas/pesimistas de las divisiones afortunadas/desafortunadas. Yo entrenaría el modelo final identificando primero los hiperparámetros (incluidos los de la envoltura de selección de características) a través del bucle de CV interno aplicado a todo el conjunto de datos (sin conjunto de entrenamiento y prueba), que utilizar estos parámetros para entrenar el modelo final en todo el conjunto de datos sin CV.

  2. No, no se puede evaluar el modelo final a menos que se disponga de un conjunto de pruebas independiente que no se haya utilizado antes por ningún medio. El rendimiento de la CV anidada es la estimación de su rendimiento. Si hace lo que sugiere, obtendrá una estimación sesgada.

  3. Puede crear muestras bootstrap de sus datos y crear el modelo final para cada uno de estos conjuntos de datos bootstrap. La proporción de veces que se ha seleccionado una característica en el modelo final le dará una estimación de la probabilidad de que sea un predictor importante. Puede combinar esto con las importancias de las variables dependientes del modelo, Por ejemplo En el caso de que se utilice un modelo lineal, se podría proporcionar la media y la desviación estándar de las distribuciones bootstrap de los coeficientes del modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X