1 votos

Validación externa del modelo genético

Mi pregunta es sobre la validación externa del modelo genético.

Tras analizar mis microarrays HTA 2.0, obtuve 350 genes expresados significativamente en los pacientes antes y después del tratamiento. He adaptado el código de este post ( https://www.biostars.org/p/344233/#448480 ) para hacer un análisis de supervivencia con expresión de genes con regresión COX, obteniendo 35 genes que afectan a la supervivencia de los pacientes.

Ahora que tengo los genes identificados, quiero validarlos con un conjunto de muestras de validación. ¿Qué método utilizaría usted? He tomado mis genes que afectan a la supervivencia de los pacientes y los he utilizado utilizando los datos clínicos de los pacientes del conjunto de validación, y obtengo un AUC de 0,9 en el ROC. Pero creo que este método no es óptimo, ¿verdad? He leído que no es correcto, ya que estoy rehaciendo los coeficientes, no validándolos.

Para hacer una validación, he encontrado este paquete que permite hacer una validación interna y externa, pero no he encontrado ningún artículo que utilice este paquete. https://cran.r-project.org/web/packages/hdnom/vignettes/hdnom.html#2_build_survival_models pero no he encontrado ningún artículo que utilice este paquete.

1voto

EdM Puntos 5716

Creo que debe trasladar su esquema de validación a un paso anterior en su modelado.

Examinó 350 genes cuya expresión era significativamente diferente antes y después del tratamiento, y luego probó cada uno de ellos individualmente para ver si su expresión (o tal vez su cambio de expresión) se asociaba con el resultado.

Si se elige un nivel de significación de p < 0,05, entonces sin ninguna asociación verdadera con la supervivencia se encontraría una asociación "significativa" sólo por casualidad en alrededor del 5% de las comparaciones. Cuando se empieza con 350 genes, eso significa que 17 genes de su conjunto de 35 que "afectan a la supervivencia del paciente" podrían ser fácilmente falsos positivos. Este es un ejemplo de la problema de las comparaciones múltiples que se hace muy grande en los estudios sobre la expresión de los genes.

Además, la evaluación de uno en uno elimina cualquier posibilidad de ver si la contabilización de algunos de esos genes podría facilitar la asociación de otros genes con el resultado. Al igual que con sesgo de variables omitidas en la regresión logística Si se omite algún predictor asociado al resultado en un modelo de supervivencia, es posible que se subestime la verdadera magnitud del coeficiente de un predictor examinado.

Además, a menos que tenga muchos miles de casos, probablemente no debería utilizar conjuntos de entrenamiento y de prueba separados para su modelado. De lo contrario, perderá potencia en el conjunto de entrenamiento y tendrá muy pocos casos en el conjunto de prueba para proporcionar una prueba sensible del rendimiento del modelo. Deberías utilizar los tipos de validación interna proporcionados, por ejemplo, por el hdnom paquete. La única excepción podría ser si se dispone de un conjunto completamente independiente de datos de expresión génica y de resultados procedentes de una fuente externa (como otro hospital) para utilizarlo como conjunto de pruebas.

Si se quiere desarrollar un modelo de supervivencia que se base de alguna manera en los 350 genes que se expresaron de forma diferencial, se debe utilizar un enfoque que comience de forma amplia y considere múltiples genes juntos. La regresión de cresta, la red elástica y el LASSO (también evidentemente proporcionado por hdnom ) son los llamados métodos penalizados que se utilizan a menudo con este fin. Abarcan una gama que va desde el uso de todos los genes mientras se penalizan diferencialmente sus coeficientes para evitar el sobreajuste (ridge), hasta la selección de una combinación de sólo unos pocos que están más estrechamente -pero juntos- asociados con el resultado (LASSO).

No he utilizado el hdnom pero sospecho que es sólo una interfaz conveniente para otros paquetes de R como glmnet para la modelización, y la validación cruzada y el bootstrapping para la validación y la calibración. Parece tener un flujo de trabajo razonable, aunque no puedo decir que sea necesariamente el "mejor" paquete de todos. Así que retroceda un par de pasos a su lista de 350 genes, utilice un enfoque penalizado para identificar los genes para su modelo, y luego haga la validación interna.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X