4 votos

Buscando ideas para construir un modelo predictivo

Soy nuevo en los modelos de predicción y tengo un problema que necesito un poco de asesoramiento. Básicamente, para una aplicación clínica queremos predecir el resultado de una escala de valoración con un modelo construido en la parte superior de los resultados de nuestro nuevo dispositivo de medición. Mi variable dependiente, una clínica de la escala de clasificación, es un número entero entre 0 y 10 (ambos inclusive). Por desgracia no tengo una gran muestra ($n \approx 100$) y tengo un montón de características para seleccionar a partir de ($p \approx 120$). También muchas de estas características están correlacionadas. Casi todas las características son variables continuas. Me han separado de la muestra para la validación ($ n \approx 40$). Hay varias cuestiones que me gustaría tener su opinión sobre:

  1. Debo ir para la regresión o árbol basado en métodos?
  2. Debo tratar de conjunto de los métodos de aprendizaje o mejor sería seguir con un modelo único? Los métodos que debo tratar y por qué?
  3. Si es mejor ir por un solo modelo, ¿cómo debo manejar la selección del modelo de problema? Debo por ejemplo, limitar el número de factores e ir a por métodos como SALTOS con AIC o debo ir a por métodos como LAZO?
  4. Si el conjunto de métodos que se sugieren, que los métodos pueden manejar los casos con pequeñas $n$ y de un gran $p$ mejor?
  5. Discutir seleccionado/influyentes características es importante para mí. Dependiendo de las respuestas a las preguntas anteriores, ¿cómo debo hacerlo?

Tengo alguna comprensión de los modelos de regresión y el modelo de selección de problemas. He utilizado el bestglm paquete en el pasado. Actualmente estoy buscando en el símbolo de Intercalación paquete, ya que trae un gran número de métodos de bajo la misma interfaz. Referencias técnico acerca de los detalles de los modelos, pero hasta ahora no he encontrado uno bueno para ir sobre temas prácticos para los problemas con los pequeños de n y de la gran p. Agradezco sus sugerencias y ayuda.

Gracias, AlefSin

5voto

pirho Puntos 1387

Si utiliza un modelo de regresión se puede comenzar con el ordinal de regresión logística desde su variable dependiente tiene una escala ordinal de 11 niveles. A continuación, puede que desee ver en el umbral de valores como usted puede encontrar que son equidistantes (después de algún tipo de transformación), en cuyo caso usted puede ir para la regresión lineal.

Árbol basado en métodos son capaces de capturar a algunos no linearities, interacciones y son muy buenos para encontrar los umbrales de las variables explicativas. Usted puede ser capaz de explicar algunas de estas agregando transformado versiones de las variables explicativas para el conjunto de características de los análisis de regresión. Jugando con ACE o AVAS puede ayudar a encontrar adecuado transformaciones.

Ya que es importante para usted para discutir los influyentes características te recomiendo hacer una exploración con los árboles, los modelos de regresión y gráficos para comprender la biología detrás de los datos y modelos. Me gustaría empezar con la última pregunta, entender la biología de primero, y luego formular un modelo adaptable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X