5 votos

La validación estadística de RandomForest modelos

Actualmente estoy trabajando en un RandomForest basado en el método de predicción usando la secuencia de la proteína de datos. Me han generado dos modelos de primer modelo (NF), utilizando el conjunto estándar de características, y el segundo modelo (HF) uso de híbridos características. He hecho Mathews Coeficiente de Correlación (MCC) y la Precisión de cálculo y los siguientes son mis resultados:

Modelo 1 (NF): la Formación de Precisión - 62.85% de Exactitud de las Pruebas - del 56,38 MCC - 0.1673

Modelo 2 (HF): la Formación de Precisión - 60.34 Exactitud de las Pruebas - 61.78 MCC - 0.1856

Los datos de prueba es un conjunto de datos independiente (es decir, no se incluyen en los datos de entrenamiento).

Dado que existe un trade-off en la precisión y la MCC entre los modelos que estoy confundido acerca de el poder de predicción de los modelos. Podría usted por favor comparta sus pensamientos sobre que modelo debo considerar para su posterior análisis? Aparte de la Precisión y la MCC es allí cualquier otra medida que debo considerar para la validación?

Gracias de antemano.

8voto

Henrik Paul Puntos 22787

Me gusta la idea de la parsimonia - el más pequeño es el número de variables en el modelo, el mejor. A menos que usted está impulsada en teoría, por supuesto. La selección de características se refiere al proceso de elección de las variables que se utilizarán en el modelo (conseguir la mejor combinación de variables). Hay un montón de diferentes opciones para la selección de características (vale la pena leerlo). Con eso dicho, no debe ser incorporada dentro de la rf algoritmo, una variable de medida de importancia que puede generar un punto de partida (con la que, dijo, ser muy cuidadoso con esto, ya que no se observaron sesgos en esto) - ver Strobl et al en el departamento de I diario.

Confío en que han variado el número de variables en una muestra aleatoria en cada nodo (esto es mtry en R) y la profundidad de los árboles y los criterios de división etc.

En términos de apariencia, el segundo modelo se ve ligeramente mejor para mí, simplemente porque de la figura de la exactitud de la prueba y resultados de trenes. Siempre me preocupa que si mi conjunto de pruebas de exactitud es notablemente menor, puede haber algo mal con el modelo. Confío en que han de asegurarse de que la prueba y el conjunto de tren están en equilibrio, al menos en la variable dependiente usted está buscando para clasificar. Si este es binario (0,1) los modelos no son realmente mucho mejor que el azar (50,50).

Una cosa muy importante a tener en cuenta es la sensibilidad (el número de verdaderos positivos en un sistema binario tarea 0,1 que son clasificados correctamente) y especificidad (el número de verdaderos negativos en un sistema binario tarea 0,1) que son clasificados correctamente.

Si es posible, me gustaría comparar este modelo frente a otros algoritmos de aprendizaje automático como impulsado árboles, máquinas de soporte vectorial (que aceptar en el gen de datos), etc.

No estoy seguro de qué paquete está utilizando - espero que ayude si

Si usted está usando r - buscar símbolo de intercalación en cran (muy buena introducción a algunas de las ideas aquí y grandes para conseguir algunas de las medidas alternativas de cumplimiento).

Pablo D

4voto

ESRogs Puntos 1381

Simplemente parece que esos dos variantes son equivalentes; sin embargo, algunos de los mejores de la prueba debe ser realizada para confirmar esto, al menos de la validación cruzada.
Además, si esto NF y HF conjuntos tienen algunos atributos en común, se puede sugerir que sólo esta parte común es útil -- me gustaría invertir algo de tiempo en hacer la selección de características.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X