Creo que debe trasladar su esquema de validación a un paso anterior en su modelado.
Examinó 350 genes cuya expresión era significativamente diferente antes y después del tratamiento, y luego probó cada uno de ellos individualmente para ver si su expresión (o tal vez su cambio de expresión) se asociaba con el resultado.
Si se elige un nivel de significación de p < 0,05, entonces sin ninguna asociación verdadera con la supervivencia se encontraría una asociación "significativa" sólo por casualidad en alrededor del 5% de las comparaciones. Cuando se empieza con 350 genes, eso significa que 17 genes de su conjunto de 35 que "afectan a la supervivencia del paciente" podrían ser fácilmente falsos positivos. Este es un ejemplo de la problema de las comparaciones múltiples que se hace muy grande en los estudios sobre la expresión de los genes.
Además, la evaluación de uno en uno elimina cualquier posibilidad de ver si la contabilización de algunos de esos genes podría facilitar la asociación de otros genes con el resultado. Al igual que con sesgo de variables omitidas en la regresión logística Si se omite algún predictor asociado al resultado en un modelo de supervivencia, es posible que se subestime la verdadera magnitud del coeficiente de un predictor examinado.
Además, a menos que tenga muchos miles de casos, probablemente no debería utilizar conjuntos de entrenamiento y de prueba separados para su modelado. De lo contrario, perderá potencia en el conjunto de entrenamiento y tendrá muy pocos casos en el conjunto de prueba para proporcionar una prueba sensible del rendimiento del modelo. Deberías utilizar los tipos de validación interna proporcionados, por ejemplo, por el hdnom
paquete. La única excepción podría ser si se dispone de un conjunto completamente independiente de datos de expresión génica y de resultados procedentes de una fuente externa (como otro hospital) para utilizarlo como conjunto de pruebas.
Si se quiere desarrollar un modelo de supervivencia que se base de alguna manera en los 350 genes que se expresaron de forma diferencial, se debe utilizar un enfoque que comience de forma amplia y considere múltiples genes juntos. La regresión de cresta, la red elástica y el LASSO (también evidentemente proporcionado por hdnom
) son los llamados métodos penalizados que se utilizan a menudo con este fin. Abarcan una gama que va desde el uso de todos los genes mientras se penalizan diferencialmente sus coeficientes para evitar el sobreajuste (ridge), hasta la selección de una combinación de sólo unos pocos que están más estrechamente -pero juntos- asociados con el resultado (LASSO).
No he utilizado el hdnom
pero sospecho que es sólo una interfaz conveniente para otros paquetes de R como glmnet
para la modelización, y la validación cruzada y el bootstrapping para la validación y la calibración. Parece tener un flujo de trabajo razonable, aunque no puedo decir que sea necesariamente el "mejor" paquete de todos. Así que retroceda un par de pasos a su lista de 350 genes, utilice un enfoque penalizado para identificar los genes para su modelo, y luego haga la validación interna.