30 votos

interpretación del eje y de un gráfico de dependencia parcial

He leído otros temas sobre los gráficos de dependencia parcial y la mayoría de ellos tratan sobre cómo trazarlos realmente con diferentes paquetes, no sobre cómo interpretarlos con precisión:

He estado leyendo y creando bastantes tramas de dependencia parcial. Sé que miden el efecto marginal de una variable s en la función ƒS (S ) con el efecto medio de todas las demás variables (c) de mi modelo. Los valores más altos de y significan que tienen una mayor influencia en la predicción precisa de mi clase. Sin embargo, no estoy satisfecho con esta interpretación cualitativa.

This link shows one of my many plots. http://imgur.com/RXqlOky

Mi modelo (bosque aleatorio) predice dos clases discretas. "Árboles sí" y "Árboles no". TRI es una variable que ha demostrado ser una buena variable para esto.

Lo que empecé a pensar es que el valor Y muestra una probabilidad de clasificación correcta. Ejemplo: y(0.2) muestra que los valores TRI de > ~30 tienen un 20% de probabilidad de identificar correctamente una clasificación Verdadero Positivo.

Donde por el contrario

y(-0.2) muestra que los valores TRI de < ~15 tienen un 20% de posibilidades de identificar correctamente una clasificación Verdadero Negativo.

Las interpretaciones generales que se hacen en la literatura sonarían así "Los valores superiores a TRI 30 empiezan a tener una influencia positiva para la clasificación en su modelo" y ya está. Suena tan vago y sin sentido para un gráfico que potencialmente puede decir tanto sobre sus datos.

También, todos mis diagramas capsulan hacia fuera en -1 a 1 en la gama para el eje y. He visto otros gráficos que van de -10 a 10, etc. ¿Es esto una función de cuántas clases usted está intentando predecir?

Me preguntaba si alguien puede hablar de este problema. Tal vez mostrarme cómo debo interpretar estas parcelas o alguna literatura que me pueda ayudar. ¿Tal vez estoy leyendo demasiado lejos en esto?

He leído muy a fondo Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción y ha sido un gran punto de partida, pero eso es todo.

18voto

trish Puntos 31

Cada punto del gráfico de dependencia parcial es el porcentaje medio de votos a favor de la clase "Árboles sí" en todas las observaciones, dado un nivel fijo de TRI.

No es una probabilidad de clasificación correcta. No tiene absolutamente nada que ver con la precisión, los verdaderos negativos y los verdaderos positivos.

Cuando vea la frase

Los valores superiores a TRI 30 empiezan a tener una influencia positiva para la clasificación en su modelo

es una forma exagerada de decir

Los valores superiores a TRI 30 empiezan a predecir "árboles sí" con más fuerza que los valores inferiores a TRI 30

3voto

AthenB Puntos 6

Una forma de ver los valores del eje Y es que son relativos entre sí en los otros gráficos. Cuando ese número es mayor que en los otros gráficos en valores absolutos, significa que es más importante porque el impacto de esa variable en el resultado es mayor.

Si te interesan las matemáticas que hay detrás de los gráficos de dependencia parcial y cómo se calcula ese número, puedes encontrarlas aquí: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf sección 8.1

2voto

Dima Puntos 285

La función de dependencia parcial te da básicamente la tendencia "media" de esa variable (integrando todas las demás en el modelo). Es la forma de esa tendencia lo que es "importante". Puede interpretar el rango relativo de de estas gráficas a partir de diferentes variables predictoras, pero no el rango absoluto. absoluto. Espero que le sirva de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X