8 votos

¿Puedo utilizar con seguridad importancia variable de un bosque al azar en un papel?

Antecedentes: acabo de empezar con el aprendizaje de máquina y estoy pensando en usarlo en la antigua base de datos en el que estoy escribiendo un artículo. El documento se ocupa de la radiación inducida por daño en los pulmones y los datos comprenden mediciones de la tasa de respiración, así como los diferentes tipos histológicos de puntuaciones para cada animal.

Una de las preguntas que me gustaría responder en el papel es si la histología es un predictor de daño pulmonar, y si sí, que en función de la histología es el más importante predictor. El resultado "daño pulmonar" es un valor booleano que indique la frecuencia de la respiración.

Mi idea era dejar a un bosque aleatorio predecir el resultado mediante la evaluación de los datos y el informe de las variables importantes en el papel con la declaración de que "las Puntuaciones de las características histológicas X, Y y Z son los mejores predictores de daño pulmonar". IMO el uso de la máquina de aprendizaje para hacer que me daría una medida cualitativa de las variables de importancia, pero me sobra la tarea de desarrollar un complicado modelo de mí que predice el resultado, ya que este no es el punto principal del documento.

Mis preguntas son:

  1. Es esto posible y una buena idea?
  2. Es la variable importancia de una sólida medir, o se ligeros cambios en el cable de datos a un nivel totalmente diferente de importancia variable de clasificación?
  3. Es la precisión de la predicción importante en este contexto y precisa cómo debe la predicción de ser para mí para estar seguro de que la variable de importancia es la derecha?

Muchas gracias por tus apreciaciones!

4voto

Michael Greinecker Puntos 19016

No parece realmente que se puede justificar la "X, Y y Z son los mejores predictores de la" sentencia en este caso. Al menos, porque todos los predictores son los mejores para su propósito, es decir, son tan específicos que pueden ser utilizados como la verdad final en el diagnóstico, o son tan sensibles que da algunos valores predictores, no hay casos de que se puede perder, o tal vez aquellos que funcionan mejor que otros, en promedio?

Lo que usted puede declarar es exactamente lo que se obtiene: X, y, Z, obtuvo la mejor puntuación en la escala de la variable importancia de la RandomForest algoritmo.

Se ve que has estudiado la asociación de varios predictores con el resultado, un tipo de estudio que muchos investigadores a hacer, así que me animo a usar el estándar de facto de la presentación de informes de la asociación en la investigación médica y biológica, es decir, la combinación de odds ratio (tamaño del efecto) y el p-valor exacto de Fisher prueba. Tales medidas se informó muy a menudo (aunque no siempre) y permitir que otros investigadores para comparar los resultados entre los papeles.

Por supuesto, la importancia de la métrica no hace daño a nadie si se agrega a los que más comúnmente se utilizan dos.

3voto

sd2k9 Puntos 21

Estaría de acuerdo con todo lo coulminer contestadas anteriormente. Habría que añadir un par de puntos que no estoy seguro de que son útiles:
- Puede ser difícil justificar el uso de RF sobre los métodos más tradicionales. Te gustaría probable necesidad de hacer hincapié en una combinación de un gran número de variables + se desconoce el número de interacciones + efectos no lineales a ser convincente.
- La importancia de la medida que tratamos de medir la importancia dentro de la RF modelo. Nada más. A menos que usted está construyendo la RF modelo por otras razones que probablemente no añadir nada. gbm se producen diferentes medidas de importancia variable - de nuevo específico para ese modelo.
- Boruta y paquetes similares intentar encontrar un subconjunto relevante de características. Yo los usaría para este propósito, y no poner demasiado peso en la variable importancia que producen.
- Hay más de una RF de importancia variable medida. Hay dos en la randomForest paquete. Uno en la party paquete. Una separada en la randomForestSRC paquete. Usted puede incluso utilizar el rminer paquete. De importancia Variable puede cambiar si cambia el muestreo interno (submuestreo) --> no creo que haya un perfecto variable de medida de importancia, o uno que usted debe poner demasiada fe en.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X