Soy nuevo en los modelos de predicción y tengo un problema que necesito un poco de asesoramiento. Básicamente, para una aplicación clínica queremos predecir el resultado de una escala de valoración con un modelo construido en la parte superior de los resultados de nuestro nuevo dispositivo de medición. Mi variable dependiente, una clínica de la escala de clasificación, es un número entero entre 0 y 10 (ambos inclusive). Por desgracia no tengo una gran muestra ($n \approx 100$) y tengo un montón de características para seleccionar a partir de ($p \approx 120$). También muchas de estas características están correlacionadas. Casi todas las características son variables continuas. Me han separado de la muestra para la validación ($ n \approx 40$). Hay varias cuestiones que me gustaría tener su opinión sobre:
- Debo ir para la regresión o árbol basado en métodos?
- Debo tratar de conjunto de los métodos de aprendizaje o mejor sería seguir con un modelo único? Los métodos que debo tratar y por qué?
- Si es mejor ir por un solo modelo, ¿cómo debo manejar la selección del modelo de problema? Debo por ejemplo, limitar el número de factores e ir a por métodos como SALTOS con AIC o debo ir a por métodos como LAZO?
- Si el conjunto de métodos que se sugieren, que los métodos pueden manejar los casos con pequeñas $n$ y de un gran $p$ mejor?
- Discutir seleccionado/influyentes características es importante para mí. Dependiendo de las respuestas a las preguntas anteriores, ¿cómo debo hacerlo?
Tengo alguna comprensión de los modelos de regresión y el modelo de selección de problemas. He utilizado el bestglm paquete en el pasado. Actualmente estoy buscando en el símbolo de Intercalación paquete, ya que trae un gran número de métodos de bajo la misma interfaz. Referencias técnico acerca de los detalles de los modelos, pero hasta ahora no he encontrado uno bueno para ir sobre temas prácticos para los problemas con los pequeños de n y de la gran p. Agradezco sus sugerencias y ayuda.
Gracias, AlefSin