He leído a través de los siguientes puestos de trabajo que han contestado a la pregunta que le iba a preguntar:
El uso Aleatorio de Bosques modelo para hacer predicciones a partir de datos del sensor
Árbol de decisión para la salida de predicción de
Esto es lo que he hecho hasta ahora: yo en comparación de modelos de Regresión Logística para Bosques Aleatorios y RF superó a la Logística. Ahora los investigadores médicos que trabajo quieren convertir mi RF resultados en una herramienta de diagnóstico médico. Por ejemplo:
Si eres un Asiático Masculino de entre 25 y 35 años, han Vitamina D por debajo xx y de la Presión Arterial por encima de xx, tiene un 76% de probabilidad de desarrollar la enfermedad de xxx.
Sin embargo, el RF no se presta a ecuaciones matemáticas simples (ver enlaces arriba). Así que aquí está mi pregunta: ¿qué ideas ¿todos tienen para el uso de RF para desarrollar una herramienta de diagnóstico (sin tener que exportar cientos de árboles).
He aquí algunas de mis ideas:
- El uso de RF para la selección de variables, a continuación, utilizar la Logística (utilizando todas las posibles interacciones) para hacer el diagnóstico de la ecuación.
- De alguna manera agregada la RF de los bosques en una "mega-árbol," que de alguna manera los promedios del nodo se divide en los árboles.
- Similar a la #2 y #1, el uso de RF para seleccionar las variables (digamos m variables total), a continuación, construir cientos de árboles de clasificación, todos los cuales se utiliza cada m variable, a continuación, elegir el mejor solo árbol.
Cualquier otra idea? También, haciendo #1 es fácil, pero cualquier idea sobre cómo implementar #2 y #3?