12 votos

Cómo combinar los resultados de la regresión logística y el bosque aleatorio?

Soy nuevo en el aprendizaje de máquina. Me aplicó la regresión logística y el bosque al azar en un mismo conjunto de datos. Por lo tanto, obtener la variable de importancia (valor absoluto del coeficiente de regresión logística y de importancia variable aleatoria bosque). Estoy pensando en combinar los dos para llegar a un variable de importancia. ¿Alguien puede compartir su experiencia? He comprobado bagging, boosting, el conjunto de modelado, pero no son lo que necesito. Son más de la combinación de información para el mismo modelo a través de repeticiones. Lo que estoy buscando es combinar el resultado de varios modelos.

12voto

On Freund Puntos 3479

Probablemente depende de lo que usted desea utilizar la variable de importancias. Es para ser utilizado como un criterio para la selección de características para un tercer modelo de clasificación? En ese caso, usted podría tratar de calcular un promedio ponderado de la variable importancias (tal vez después de la normalización de cada una de las variables importancia del vector de unidad de longitud) para los distintos valores y el promedio de peso y, a continuación, recoger el valor que se obtiene el mejor validado por cruz puntuación para el modelo final.

En cuanto a la combinación de los resultados del modelo de regresión logística y el azar de bosques modelo (sin considerar la variable de importancias), la siguiente entrada de blog es muy informativo y demuestra que un solo promedio de la salida es un simple pero muy eficaz conjunto de método para los modelos de regresión.

5voto

cletus Puntos 276888

(Comentarios sobre la respuesta y retroalimentación)

Gracias por leer el blog!

La cruz de entropía función de error que tiene un poco de trampa, truncar los valores predichos a [1e-10, 1-1e-10] como una forma barata y fácil para evitar errores en el registro de funciones. De lo contrario, esta es la fórmula estándar.

Para el conjunto de datos, es muy posible que haya conjuntos de datos donde un bosque aleatorio es muy superior a la de un registro. reg. y el registro. reg. no aporta nada al conjunto. Asegúrese de que, por supuesto, que usted está usando de sujeción de datos - un bosque al azar casi siempre tienen resultados superiores en los datos de entrenamiento debido a la necesidad de la medida más eficaz de los parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X