Aunque esta pregunta y su primera respuesta parece estar centrado en las cuestiones teóricas del modelo de regresión logística de la calibración, el problema de:
¿Cómo se podría arruinar la calibración de una regresión logística...?
merece un poco de atención con respecto a las aplicaciones del mundo real para los futuros lectores de esta página. No debemos olvidar que el modelo de regresión logística tiene que estar bien especificado, y que este problema puede ser particularmente problemático para la regresión logística.
En primer lugar, si el registro de probabilidades de pertenencia a la clase no está relacionada linealmente con la predictores incluidos en el modelo, entonces no va a estar bien calibrado. Harrell del capítulo 10 en la Regresión Logística Binaria dedica alrededor de 20 páginas a la "Evaluación del Ajuste del Modelo", de modo que uno puede tomar ventaja de la "asintótica unbiasedness del estimador de máxima verosimilitud," como @whuber ponerlo en práctica.
Segundo, la especificación del modelo es un problema en particular en la regresión logística, ya que lleva implícito un sesgo de variable omitida que puede ser sorprendente para aquellos con un fondo ordinario de regresión lineal. Como que en la página pone:
Variables omitidas provocará un sesgo en los coeficientes incluye variables incluso si las variables omitidas no están correlacionados con el que se incluyen variables.
La página también tiene una útil explicación de por qué este comportamiento es de esperar, con una explicación teórica relacionada, analíticamente manejable, modelos probit. Así que a menos que usted sabe que usted ha incluido a todos los predictores relacionados con la pertenencia a una clase, usted podría ejecutarse en peligros de misspecification y mala calibración en la práctica.
Con respecto a la especificación del modelo, es muy posible que el árbol basado en métodos como el bosque aleatorio, que no suponga la linealidad en toda una gama de valores predictores y proporcionan intrínsecamente la posibilidad de encontrar y incluyendo las interacciones entre los predictores, va a terminar con un mejor modelo calibrado en práctica de un modelo de regresión logística que no se tienen los términos de interacción o de no-linealidad en cuenta suficientemente. Con respecto a la omitido-sesgo de variable, no me queda claro si cualquier método para la evaluación de la clase de pertenencia de probabilidades puede abordar el tema de manera adecuada.