Actualmente estoy trabajando con el inventario forestal nacional de México. Se trata de un sistema de muestreo que recoge datos sobre el estado de los bosques en puntos repartidos por todo el país. Una de estas variables es cualitativa y se refiere al daño/degradación del suelo debido a muchas causas. Por ejemplo, las actividades de pastoreo. Esta variable también tiene asociado un grado ordinal de "daño" si lo hay, 1: 1%-20%, 2: 20%-40%... (no recuerdo exactamente el tamaño de los intervalos). Como ejercicio rápido tomé esta variable de pastos e ignoré el grado de daño. Sólo hice una variable binaria que indica que el daño está presente / no está presente. Luego entrené un clasificador Random Forest utilizando muchas variables de teledetección, topográficas y climatológicas. Estas variables están disponibles de pared a pared en el país, por lo que posteriormente puedo utilizar el modelo para generar un mapa. Si entreno el clasificador utilizando una muestra equilibrada entre 1's y 0's y hago una clasificación dura obtengo una precisión con CV de alrededor del 75%. Me interesa más generar un mapa de probabilidad de degradación por lo que no he equilibrado la muestra y he generado una clasificación suave. Esta sería la probabilidad de la clase 1 (la degradación está presente):
¿Tiene este ejercicio sentido para alguien? Mi verdadera preocupación es la interpretación. ¿Cómo se asocian estas probabilidades con lo que realmente ocurre en el país? ¿O alguien tiene un ejemplo de cuándo uno querría asociar una clasificación suave con un fenómeno de la vida real? Para mí tiene mucho más sentido pensar de forma difusa. Pero estoy perdido cuando se trata de describir lo que está pasando.