Por qué algunos algoritmos producen probabilidades calibradas

Question

Por qué algunos algoritmos producen probabilidades calibradas

Preguntado el 3 de Marzo, 2020: Cuando se hizo la pregunta
530 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

He visto que algunos algoritmos, especialmente los lineales, producen probabilidades bien calibradas.

Por ejemplo, la regresión logística o el perceptrón multicapa producen probabilidades muy calibradas, mientras que los algoritmos no lineales como SVM, Random Forest o KNN no lo hacen.

En cambio, Gradient Boosting Trees, que no es lineal, produce unas probabilidades de clase muy bien calibradas.

¿Puede alguien explicar por qué ocurre esto con los distintos algoritmos? Muchas gracias de antemano.

Preguntado el 3 de Marzo, 2020 por Wagner

Answer 1

1 Respuestas

Answer 2

13voto

throwaway Puntos 18

La calibración refleja en qué medida las probabilidades de clase predichas coinciden con las probabilidades "verdaderas" según la distribución subyacente de los datos. Por consiguiente, las propiedades de un algoritmo de aprendizaje en sí no determinan universalmente lo bien o mal calibrados que estarán los resultados. Más bien depende de lo bien adaptado que esté el algoritmo de aprendizaje al problema concreto.

Para ilustrarlo, veamos un ejemplo de juguete en el que se utiliza un clasificador Bayes ingenuo gaussiano. Vamos a generar dos conjuntos de datos, en los que los puntos de cada clase se muestrean a partir de una distribución gaussiana 2D. En el primer conjunto de datos, los puntos se generan utilizando matrices de covarianza completas. Esto viola los supuestos de Bayes ingenuo porque las características de entrada no son condicionalmente independientes, dada la clase. En el segundo conjunto de datos, los puntos se generan utilizando matrices de covarianza diagonales. En este caso, el espacio de hipótesis de Bayes ingenuo contiene en realidad el modelo verdadero. Estos son los datos y los resultados de la calibración:

La calibración es deficiente en el primer conjunto de datos, pero bastante buena en el segundo. Esto demuestra que estar bien o mal calibrado depende del problema y no es una propiedad universal. También apoya la idea de que el buen calibrado tiene que ver con la aproximación del modelo a la distribución subyacente.

Dicho esto, esto no contradice la idea de que determinados algoritmos de aprendizaje puedan tender producir resultados bien calibrados o mal calibrados en problemas del mundo real, que pueden compartir ciertas características comunes. Por ejemplo, el supuesto de independencia condicional no se cumple en muchos problemas que nos interesan, por lo que se esperaría que el Bayes ingenuo diera resultados mal calibrados en estos problemas.

Para más información sobre la calibración de probabilidades y la comparación de distintos clasificadores en conjuntos de datos de referencia, véase:

Niculescu-Mizil, A., y Caruana, R. (2005). Predicción de buenas probabilidades con aprendizaje supervisado. En Proceedings of the 22nd international conference on Machine learning (pp. 625-632).

Respondido el 4 de Marzo, 2020 por throwaway (18 Puntos )

Por qué algunos algoritmos producen probabilidades calibradas

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Por qué algunos algoritmos producen probabilidades calibradas

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: