Hay al menos dos posibilidades para estos datos. Una posibilidad es que sus microarrays no contengan ningún marcador de enfermedad. Pero sí contienen información sobre la edad, y como en su caso las poblaciones enferma y de control tienen edades diferentes, se obtiene la ilusión de un buen rendimiento en la clasificación. Otra posibilidad es que los microarrays sí contengan marcadores de enfermedad y, además, estos marcadores son exactamente en lo que se centra la SVM.
Parece que los componentes principales de los datos pueden estar correlacionados con la edad en ambas posibilidades. En el primer caso será porque la edad es lo que expresan los datos. En el segundo caso será porque la enfermedad es lo que expresan los datos, y esta enfermedad está a su vez correlacionada con la edad (para su conjunto de datos). No creo que haya una forma fácil de mirar el valor de la correlación y concluir de qué caso se trata.
Se me ocurren varias formas de evaluar el efecto de manera diferente. Una opción es dividir el conjunto de entrenamiento en grupos de igual edad. En este caso, para las edades "jóvenes" la clase normal tendrá más ejemplos de entrenamiento que la clase de enfermedad, y viceversa para las edades más avanzadas. Pero mientras haya suficientes ejemplos, esto no debería ser un problema. Otra opción es hacer lo mismo con los conjuntos de prueba, es decir, ver si el clasificador tiende a decir "enfermo" más a menudo para los pacientes de más edad. Ambas opciones podrían ser difíciles, ya que no tienes tantos ejemplos.
Otra opción es entrenar dos clasificadores. En el primero, la única característica será la edad. Parece que esto tiene un AUC de 0,82. En el segundo, estará la edad y los datos del microarray. (Parece que actualmente se entrena un clasificador diferente que sólo utiliza los datos del microarray, y da un AUC de 0,95. Si se añade explícitamente la característica de la edad, es probable que mejore el rendimiento, por lo que el AUC será aún mayor). Si el segundo clasificador funciona mejor que el primero, esto indica que la edad no es lo único que interesa en estos datos. Según tu comentario, la mejora del AUC es de 0,13 o más, lo que parece justo.