6 votos

¿Es la validación cruzada un enfoque eficaz para la selección de características/modelos para los datos de microarreglos?

He estado trabajando con WEKA para construir predictores de clase usando esto (bastante viejo..) conjunto de datos sobre el cáncer de mama . El conjunto de datos se divide en un entrenamiento y un conjunto de pruebas. He estado probando diferentes esquemas de aprendizaje (la mayoría enfocados en la selección de características) usando experimentos de validación cruzada 10 veces en el conjunto de entrenamiento. Desafortunadamente, cuando pruebo los modelos de entrenamiento en el conjunto de pruebas no parece haber ninguna correlación entre los resultados de la validación cruzada y el rendimiento real del conjunto de pruebas.

¿Es este un problema constante para los datos de microarreglos u otros datos de alta dimensión / bajo conteo de muestras? ¿Existe otro enfoque más adecuado que la validación cruzada para evaluar los modelos sobre los datos de capacitación?

2voto

Daniel Puntos 1

La respuesta realmente parece ser que la validación cruzada no es grande porque sus resultados son extremadamente variables, pero sigue siendo la mejor opción disponible. El único otro enfoque competitivo parece ser el estimador bootstrap de 0,632 que tiene una varianza ligeramente menor pero que también subestima el verdadero rendimiento. Véase ¿Es válida la validación cruzada para la clasificación de microarreglos de muestras pequeñas? . También de relevancia - (quizás obvio) - cuanto más características se incluyan, mayor será la varianza de los cv-estimados.

1voto

mat_geek Puntos 1367

Creo que el problema puede ser que su conjunto de entrenamiento es demasiado pequeño y por lo tanto no es representativo de toda la población y si lo prueba en conjuntos de pruebas aún más pequeños estos datos pueden ser muy diferentes. Este es más bien un problema general de grandes p pequeños n y pertenece a ese tipo de problema ya sea genético o no. No tiene nada que ver con lo bien que los genes predicen los resultados en el cáncer de mama. De hecho, creo que hay varios biomarcadores que son útiles para estimar la probabilidad de recurrencia en pacientes a los que se les ha extirpado el tumor por completo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X