9 votos

Correlación de variables clínicas continuas y datos de expresión génica

En los análisis de clasificación SVM (kernel lineal) de un conjunto de datos de expresión génica (~400 variables/genes) para ~25 de cada uno de los casos y controles, encuentro que los clasificadores basados en la expresión génica tienen muy buenas características de rendimiento. Los casos y los controles no difieren significativamente para una serie de variables clínicas/demográficas categóricas y continuas (según las pruebas exactas o t de Fisher), pero sí difieren significativamente para la edad.

¿Hay alguna manera de demostrar que los resultados del análisis de clasificación están o no influidos por la edad?

Estoy pensando en reducir los datos de expresión genética a componentes principales, y hacer un análisis de correlación de Spearman de los componentes contra la edad.

¿Es este un enfoque razonable? Alternativamente, puedo comprobar la correlación entre la edad y los valores de probabilidad de pertenencia a la clase obtenidos en el análisis SVM.

Gracias.

2voto

Tom Jalinki Puntos 11

Hay al menos dos posibilidades para estos datos. Una posibilidad es que sus microarrays no contengan ningún marcador de enfermedad. Pero sí contienen información sobre la edad, y como en su caso las poblaciones enferma y de control tienen edades diferentes, se obtiene la ilusión de un buen rendimiento en la clasificación. Otra posibilidad es que los microarrays sí contengan marcadores de enfermedad y, además, estos marcadores son exactamente en lo que se centra la SVM.

Parece que los componentes principales de los datos pueden estar correlacionados con la edad en ambas posibilidades. En el primer caso será porque la edad es lo que expresan los datos. En el segundo caso será porque la enfermedad es lo que expresan los datos, y esta enfermedad está a su vez correlacionada con la edad (para su conjunto de datos). No creo que haya una forma fácil de mirar el valor de la correlación y concluir de qué caso se trata.

Se me ocurren varias formas de evaluar el efecto de manera diferente. Una opción es dividir el conjunto de entrenamiento en grupos de igual edad. En este caso, para las edades "jóvenes" la clase normal tendrá más ejemplos de entrenamiento que la clase de enfermedad, y viceversa para las edades más avanzadas. Pero mientras haya suficientes ejemplos, esto no debería ser un problema. Otra opción es hacer lo mismo con los conjuntos de prueba, es decir, ver si el clasificador tiende a decir "enfermo" más a menudo para los pacientes de más edad. Ambas opciones podrían ser difíciles, ya que no tienes tantos ejemplos.

Otra opción es entrenar dos clasificadores. En el primero, la única característica será la edad. Parece que esto tiene un AUC de 0,82. En el segundo, estará la edad y los datos del microarray. (Parece que actualmente se entrena un clasificador diferente que sólo utiliza los datos del microarray, y da un AUC de 0,95. Si se añade explícitamente la característica de la edad, es probable que mejore el rendimiento, por lo que el AUC será aún mayor). Si el segundo clasificador funciona mejor que el primero, esto indica que la edad no es lo único que interesa en estos datos. Según tu comentario, la mejora del AUC es de 0,13 o más, lo que parece justo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X