5 votos

¿Por qué es bosque aleatorio inconsistente en la minería de texto?

Anteriormente he usado SVM (kernel rbf) en la minería de texto con éxito, y después de que similares para la minería de texto trabajo con textos largos he usado bosque aleatorio con éxito. Sin embargo, en un reciente kaggle de la competencia cuando he usado bosque aleatorio con un vector palabra (después de hacer la enfermedad vesicular porcina y la reducción de la dimensión de 200-400), el resultado nunca estuvo cerca de la svm en términos de RMSE. Alguna idea de por qué bosque aleatorio es incoherente en diferentes minería de texto, pero SVM lo hace de forma más consistente?

1voto

ROBINSON Puntos 916

He utilizado bosque aleatorio con éxito en aplicaciones de minería de texto, aunque SVM con kernel lineal, por ejemplo, había llegado superior de la exactitud de la clasificación. SVM es un buen comienzo cuando usted busca para una buena clasificación de los algoritmos sin conocimiento previo.

A pesar de bosque aleatorio se ejecuta más rápido y es adecuado para muchas aplicaciones, sus resultados dependen de los valores de parámetro que usted elija. Lo mismo sucede para los principales algoritmos.

Te sugiero que para Empezar a hacer la cuadrícula de búsqueda a través de los siguientes randomForest parámetros para comprobar si los cambios de los resultados: número de árboles, número de cuenta, la profundidad máxima de los árboles. Analizar los resultados de acuerdo a los parámetros de variación. Se puede combinar este experimento con validación cruzada o tal.

Puede realizar la misma para otros clasificadores.

Sus datos normalizado? Puedes aplicar la normalización o algo más que valga la pena mencionar?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X