¿Cuál es la diferencia entre los métodos de aprendizaje probabilístico y no probabilístico para diferentes situaciones? ¿Cuándo se considera que uno es más apropiado que el otro? ¿Puede dar ejemplos?
Respuesta
¿Demasiados anuncios?La tarea de clasificación permite una comparación sencilla:
A probabilístico (como Random Forest) produciría una distribución de probabilidad sobre un conjunto de clases para cada muestra de entrada.
A determinista (como SVM) no modela la distribución de las clases, sino que separa el espacio de características y devuelve la clase asociada al espacio del que procede una muestra.
Sin embargo, es posible que cada método probabilístico devuelva simplemente la clase con la mayor probabilidad y, por tanto, parezca determinista. Además, al revés, basándose en la distancia al hiperplano de separación en las SVM se puede calcular una probabilidad y devolverla para cada clase.
En general, los enfoques probabilísticos son más adecuados para incorporar la incertidumbre sobre la respuesta y pueden proporcionar información sobre la seguridad de una predicción. Además, los métodos probabilísticos pueden incorporar información previa sobre la distribución de la clase.
Ejemplo:
Si, por ejemplo, se intentara predecir el sexo en función de la altura del cuerpo, una evaluación determinista simplemente elegiría un punto de separación y diría eso:
(números completamente inventados)
altura >= 175 --> hombre
altura < 175 --> mujer
por lo que para una muestra con la altura de 175 daría igual de bien la mujer que para una altura de 155.
Un enfoque probabilístico en este caso podría arrojar una probabilidad como para una altura de
155 ---> hombre(0,1), mujer(0,9) y para
175 --> hombre(0.49), mujer(0.51)