1 votos

Clasificación de fMRI entre sujetos: sujetos con diferente número de carreras

El objetivo principal de mi trabajo es discriminar a los pacientes frente a los controles sanos utilizando fMRI y análisis de patrones multivariados (MVPA). Como quiero clasificar a nivel de sujeto, realicé un GLM de sujeto separado para obtener las estimaciones de los parámetros para cada condición de tarea. Luego transformé las estimaciones beta en valores t para mejorar la relación señal/ruido. Tengo 31 controles y 32 pacientes. Todos ellos completaron 3 carreras, excepto 4 pacientes que sólo completaron 2 carreras debido a la fatiga.

Mi pregunta es: dado que el MVPA es muy sensible a las clases desiguales, ¿debería excluir a los 4 pacientes que sólo completaron 2 carreras y luego equilibrar las clases haciendo algún tipo de submuestreo de la clase de controles, por ejemplo? Mi principal preocupación es que esos 4 pacientes tienen una menor relación señal/ruido en comparación con los otros que completaron 3 carreras, lo que podría socavar la precisión de la clasificación.

He buscado en varios artículos y en algunos libros de texto, pero no encuentro nada sobre recorridos desiguales en el análisis de clasificación entre sujetos. Agradecería que alguien compartiera algunas referencias sobre este tema.

1voto

EdM Puntos 5716

Realmente no tienes un problema de desequilibrio en sí, con 31 controles y 32 pacientes. Lo que tiene es una precisión diferente de los errores intra-sujetos, ya que 4 pacientes sólo completaron 2 de 3 corridas (presumiblemente por razones no relacionadas con los resultados de las imágenes per se). La solución más sencilla sería ponderar a la baja los casos que sólo tienen 2 en lugar de 3 ejecuciones, lo que corresponde a la menor precisión de las estimaciones por vóxel en esos casos. Se trataría de algo del orden de $\sqrt{2/3}$ en relación con los otros casos.

Esto es relativamente sencillo de manejar con la regresión logística penalizada (ridge o LASSO), que tiene una conexión muy estrecha con SVM como se explica en la sección 9.5 de ISLR . El software estadístico estándar para la regresión logística permite dicha ponderación de casos. No tengo experiencia con libsvm pero si eso también permite que haya pesos específicos para cada caso, entonces eso daría una respuesta.

También hay que tener en cuenta lo que dicen los autores de ISLR sobre el rendimiento relativo de la regresión logística y la SVM (página 357):

Cuando las clases están bien separadas, las SVM tienden a comportarse mejor que la regresión logística; en los regímenes más superpuestos, se suele preferir la regresión logística.

Por lo tanto, es preferible la regresión logística, a menos que haya distinciones de imagen muy claras entre las clases de control y de pacientes.

Se trata de un problema bastante difícil, con sólo 31 casos en el grupo más pequeño y el deseo de utilizar múltiples vóxeles como características para la clasificación. Para evitar el sobreajuste, está limitado a unas 2 o 3 características no penalizadas, o a un número mayor de características penalizadas, con ese tamaño de muestra. (La regla general es 10-20 casos en el grupo más pequeño por característica no penalizada). Los parámetros de ajuste ayudan evitar el sobreajuste en la SVM De forma similar a como funciona la regresión logística penalizada; el capítulo 9 de ISLR explica esta cuestión con más detalle. Mi sensación es que el manejo adecuado de la penalización para evitar el sobreajuste será un problema más apremiante aquí que la diferencia relativamente pequeña en la precisión debido a tener sólo 2 en lugar de 3 observaciones para algunos sujetos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X