18 votos

Por qué algunos algoritmos producen probabilidades calibradas

He visto que algunos algoritmos, especialmente los lineales, producen probabilidades bien calibradas.

Por ejemplo, la regresión logística o el perceptrón multicapa producen probabilidades muy calibradas, mientras que los algoritmos no lineales como SVM, Random Forest o KNN no lo hacen.

En cambio, Gradient Boosting Trees, que no es lineal, produce unas probabilidades de clase muy bien calibradas.

¿Puede alguien explicar por qué ocurre esto con los distintos algoritmos? Muchas gracias de antemano.

13voto

throwaway Puntos 18

La calibración refleja en qué medida las probabilidades de clase predichas coinciden con las probabilidades "verdaderas" según la distribución subyacente de los datos. Por consiguiente, las propiedades de un algoritmo de aprendizaje en sí no determinan universalmente lo bien o mal calibrados que estarán los resultados. Más bien depende de lo bien adaptado que esté el algoritmo de aprendizaje al problema concreto.

Para ilustrarlo, veamos un ejemplo de juguete en el que se utiliza un clasificador Bayes ingenuo gaussiano. Vamos a generar dos conjuntos de datos, en los que los puntos de cada clase se muestrean a partir de una distribución gaussiana 2D. En el primer conjunto de datos, los puntos se generan utilizando matrices de covarianza completas. Esto viola los supuestos de Bayes ingenuo porque las características de entrada no son condicionalmente independientes, dada la clase. En el segundo conjunto de datos, los puntos se generan utilizando matrices de covarianza diagonales. En este caso, el espacio de hipótesis de Bayes ingenuo contiene en realidad el modelo verdadero. Estos son los datos y los resultados de la calibración:

enter image description here

La calibración es deficiente en el primer conjunto de datos, pero bastante buena en el segundo. Esto demuestra que estar bien o mal calibrado depende del problema y no es una propiedad universal. También apoya la idea de que el buen calibrado tiene que ver con la aproximación del modelo a la distribución subyacente.

Dicho esto, esto no contradice la idea de que determinados algoritmos de aprendizaje puedan tender producir resultados bien calibrados o mal calibrados en problemas del mundo real, que pueden compartir ciertas características comunes. Por ejemplo, el supuesto de independencia condicional no se cumple en muchos problemas que nos interesan, por lo que se esperaría que el Bayes ingenuo diera resultados mal calibrados en estos problemas.

Para más información sobre la calibración de probabilidades y la comparación de distintos clasificadores en conjuntos de datos de referencia, véase:

Niculescu-Mizil, A., y Caruana, R. (2005). Predicción de buenas probabilidades con aprendizaje supervisado. En Proceedings of the 22nd international conference on Machine learning (pp. 625-632).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X