He leído otros temas sobre los gráficos de dependencia parcial y la mayoría de ellos tratan sobre cómo trazarlos realmente con diferentes paquetes, no sobre cómo interpretarlos con precisión:
He estado leyendo y creando bastantes tramas de dependencia parcial. Sé que miden el efecto marginal de una variable s en la función ƒS (S ) con el efecto medio de todas las demás variables (c) de mi modelo. Los valores más altos de y significan que tienen una mayor influencia en la predicción precisa de mi clase. Sin embargo, no estoy satisfecho con esta interpretación cualitativa.
Mi modelo (bosque aleatorio) predice dos clases discretas. "Árboles sí" y "Árboles no". TRI es una variable que ha demostrado ser una buena variable para esto.
Lo que empecé a pensar es que el valor Y muestra una probabilidad de clasificación correcta. Ejemplo: y(0.2) muestra que los valores TRI de > ~30 tienen un 20% de probabilidad de identificar correctamente una clasificación Verdadero Positivo.
Donde por el contrario
y(-0.2) muestra que los valores TRI de < ~15 tienen un 20% de posibilidades de identificar correctamente una clasificación Verdadero Negativo.
Las interpretaciones generales que se hacen en la literatura sonarían así "Los valores superiores a TRI 30 empiezan a tener una influencia positiva para la clasificación en su modelo" y ya está. Suena tan vago y sin sentido para un gráfico que potencialmente puede decir tanto sobre sus datos.
También, todos mis diagramas capsulan hacia fuera en -1 a 1 en la gama para el eje y. He visto otros gráficos que van de -10 a 10, etc. ¿Es esto una función de cuántas clases usted está intentando predecir?
Me preguntaba si alguien puede hablar de este problema. Tal vez mostrarme cómo debo interpretar estas parcelas o alguna literatura que me pueda ayudar. ¿Tal vez estoy leyendo demasiado lejos en esto?
He leído muy a fondo Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción y ha sido un gran punto de partida, pero eso es todo.