5 votos

¿Selección post hoc de características importantes en bosques aleatorios?

Quiero garantizar un bosque aleatorio parsimonioso (pocas características utilizadas). ¿Cuáles son los métodos para hacer esto? Me sugirieron que obtuviera la importancia de la característica después de que se creó el modelo, y luego crear un nuevo modelo usando solo las características importantes. ¿Es esta una buena idea / qué otras opciones hay?

2voto

KhaaL Puntos 66

La filtración de la baja importancia de las características es una idea común, pero es necesario hacerlo de forma iterativa y sólo quitar un (atentos) porcentaje de características en cada iteración. Esto es debido a la importancia en la rf puede ser repartidos en varias características de la información redundante.

Es decir, si usted tiene predictor_a" y "transformed_predictor_a" en el conjunto de datos se tiende a utilizar de forma indistinta por lo tanto la reducción de la importancia de ambos por mitad. De forma iterativa extracción de características (ojalá) sólo quitar la peor de las dos características, y la otra se consigue la importancia de impulsar la prevención de que de ser eliminado en futuras iteraciones.

También hay métodos que intentan lidiar con esta importancia la difusión analíticamente mirando "enmascaramiento de calificaciones" para determinar la información de redundancia o haciendo otro tipo de análisis.

La otra parte de el método descrito en el ligado de papel de arriba también puede ser muy eficaz. Se calcula varios bosques cada barajan copias de todo el conjunto de datos y hace una prueba estadística para determinar cual de las funciones que se desempeñan significativamente mejor que la de sus contrastes.

En mi experiencia este método ace (selección de función) puede funcionar muy bien en las altas dimensiones de los conjuntos de datos con un montón de irrelevante ruidoso características, incluyendo especialmente los datos genéticos. Tengo una aplicación y una trama con algunos de los resultados aquí.

1voto

jws121295 Puntos 36

Estoy trabajando (por mi cuenta) con un primo de de-impulsado árboles.

Impulsar aumenta la sensibilidad y la caracterización, pero estoy deseando un sólido ajuste. El enfoque que tengo actualmente cuenta los resultados que aparecen similar a la regresión ridge, pero en la prueba de las series que puedo obtener buenos resultados. Otra razón por la que no es correcta GBT es que puedo reemplazar el árbol, haciendo un promedio ponderado de la mezcla de los errores de la nueva "árbol" y el "viejo". El peso funciona como un parámetro de aprendizaje y deben ser pequeñas. El resultado es una robusta ajuste Árbol de Clasificación y Regresión (CART) del modelo.

En algunos sentidos se califica como forma óptima de manera parsimoniosa. En el sentido de un bosque aleatorio de forma óptima parsimonioso porque es un bosque compuesto de al menos trivial número de árboles -.

Hay una conexión interesante entre la parsimonia y la solidez cuando se trata de modelos de CARRITO.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X