He leído el artículo de Alexandru Niculescu-Mizil y Rich Caruana " Obtención de probabilidades calibradas a partir de Boosting "y el debate en ce hilo. Sin embargo, todavía estoy teniendo problemas para entender y aplicar logística o Escala de Platt para calibrar la salida de mi clasificador boosting multiclase (gentle-boost con muñones de decisión).
Estoy algo familiarizado con los modelos lineales generalizados, y creo que entiendo cómo funcionan los métodos de calibración logística y de Platt en el caso binario, pero no estoy seguro de saber cómo extender el método descrito en el artículo al caso multiclase.
El clasificador que utilizo produce los siguientes resultados:
- $f_{ij}$ = Número de votos que el clasificador emite para la clase $j$ para la muestra $i$ que se está clasificando
- $y_i$ = Clase estimada
En este punto tengo las siguientes preguntas:
Q1: ¿Tengo que utilizar un logit multinomial para estimar las probabilidades? o ¿puedo seguir haciéndolo con una regresión logística (por ejemplo, en un 1 contra todos moda)?
Q2: ¿Cómo debo definir las variables objetivo intermedias (por ejemplo, como en el escalado de Platt) para el caso multiclase?
Q3: Entiendo que puede ser mucho pedir, pero ¿alguien estaría dispuesto a esbozar el pseudocódigo de este problema? (en un plano más práctico, me interesa una solución en Matlab).