Quiero predecir el resultado de un determinado tratamiento (remisión o no) utilizando datos demográficos, biomarcadores plasmáticos, genéticos y clínicos. ¿Es un modelo de red neuronal la mejor manera de hacerlo? ¿Qué ventajas tiene esto sobre la construcción de un modelo de regresión logística tradicional? ¿Cuán limitado estoy con sólo 120 casos y hasta 40 covariables, dependiendo de la colinealidad? ¿Cómo puedo reducirlas? Normalmente me inclinaría por el análisis factorial, pero ¿una red neuronal combinará las variables colineales de forma sensata? Cualquier idea sobre la combinación de datos multimodales sería útil, o un punto de partida para la lectura - ya tengo el MASS de Ripley.
Respuestas
¿Demasiados anuncios?Reglas generales sobre cuándo utilizar una red neuronal:
1) se puede decir, con relativa facilidad, cuál es la respuesta correcta, pero no describir cómo se sabe que es la respuesta correcta; si se sabe qué pasos hay que dar para obtener la respuesta correcta, entonces hay que codificarla en lugar de entrenar una NN, y si no se puede decir cuál es la respuesta correcta, probablemente una NN tampoco podrá hacerlo 2) una precisión del 90% es suficiente (por ejemplo, cuando otras técnicas dan mucho menos); las NN, por su naturaleza, no dan una precisión del 100%. 3) sólo se necesita la respuesta correcta, no una comprensión del cómo; las NN, por su naturaleza, no suelen dar mucha información sobre la naturaleza del sistema
Por cierto, dar a una NN tanto los datos en bruto como las transformaciones de los mismos (promedios, deltas, etc.) y dejar que el algoritmo de aprendizaje decida cuáles son útiles para la predicción es mejor que averiguarlo tú mismo; si lo determinas todo sobre qué factores son importantes y cómo codificarlos, habrás hecho la mayor parte del trabajo (no todo) que una NN puede hacer por ti de todos modos.
p.d. ejecutar una NN muchas veces y tomar el mejor resultado es una buena idea; cualquier buena implementación de NN es estocástica, y diferentes ejecuciones pueden ser mejores o peores por una cantidad sustancial.
Suele ser una buena idea hacer un PCA antes de ajustar una red neuronal, así que tu instinto podría estar en lo cierto. La única forma de determinar qué modelo es mejor para un problema determinado es realizar una validación cruzada de ambos y comparar el error fuera de la muestra.
El paquete de caretas en R es una buena manera de comparar los modelos que utilizan esta técnica (específicamente el función del tren ). Como extra, incluye una llamada al modelo pcaNNet que calcula los componentes principales antes de ajustar una red neuronal.