13 votos

¿Por qué está bien calibrada la regresión logística y cómo arruinar su calibración?

En los documentos de scikit learn sobre la calibración de probabilidad, comparan la regresión logística con otros métodos y observan que el bosque aleatorio está menos calibrado que la regresión logística.

¿Por qué está bien calibrada la regresión logística? ¿Cómo podría uno arruinar la calibración de una regresión logística (no que uno quiera hacerlo, solo como un ejercicio)?

6voto

EdM Puntos 5716

Aunque esta pregunta y su primera respuesta parece estar centrado en las cuestiones teóricas del modelo de regresión logística de la calibración, el problema de:

¿Cómo se podría arruinar la calibración de una regresión logística...?

merece un poco de atención con respecto a las aplicaciones del mundo real para los futuros lectores de esta página. No debemos olvidar que el modelo de regresión logística tiene que estar bien especificado, y que este problema puede ser particularmente problemático para la regresión logística.

En primer lugar, si el registro de probabilidades de pertenencia a la clase no está relacionada linealmente con la predictores incluidos en el modelo, entonces no va a estar bien calibrado. Harrell del capítulo 10 en la Regresión Logística Binaria dedica alrededor de 20 páginas a la "Evaluación del Ajuste del Modelo", de modo que uno puede tomar ventaja de la "asintótica unbiasedness del estimador de máxima verosimilitud," como @whuber ponerlo en práctica.

Segundo, la especificación del modelo es un problema en particular en la regresión logística, ya que lleva implícito un sesgo de variable omitida que puede ser sorprendente para aquellos con un fondo ordinario de regresión lineal. Como que en la página pone:

Variables omitidas provocará un sesgo en los coeficientes incluye variables incluso si las variables omitidas no están correlacionados con el que se incluyen variables.

La página también tiene una útil explicación de por qué este comportamiento es de esperar, con una explicación teórica relacionada, analíticamente manejable, modelos probit. Así que a menos que usted sabe que usted ha incluido a todos los predictores relacionados con la pertenencia a una clase, usted podría ejecutarse en peligros de misspecification y mala calibración en la práctica.

Con respecto a la especificación del modelo, es muy posible que el árbol basado en métodos como el bosque aleatorio, que no suponga la linealidad en toda una gama de valores predictores y proporcionan intrínsecamente la posibilidad de encontrar y incluyendo las interacciones entre los predictores, va a terminar con un mejor modelo calibrado en práctica de un modelo de regresión logística que no se tienen los términos de interacción o de no-linealidad en cuenta suficientemente. Con respecto a la omitido-sesgo de variable, no me queda claro si cualquier método para la evaluación de la clase de pertenencia de probabilidades puede abordar el tema de manera adecuada.

5voto

The Nightman Puntos 108

La regresión logística es un método de clasificación, que básicamente se aprende una función de probabilidad $\pi_\theta(x)$ sobre el espacio de entrada mediante el ajuste de los parámetros de $\theta$. Si las probabilidades pronosticadas se aprenden con la correspondiente pérdida de la función de regresión logística tiene el potencial para aprender de una estimación objetiva de los binarios evento probabilidades, siempre y cuando su capacidad de producción suficiente (características de entrada).

El registro de pérdida permite que este tipo de estimación objetiva. Considere el hecho de que el registro de la función de pérdida es simplemente la negativa de registro de probabilidad de una distribución de Bernoulli $z \thicksim \text{Ber}(p)$. La estimación de máxima verosimilitud para $p$ es imparcial, dado un conjunto de observaciones para la variable $z$. En el caso de la clasificación a través de algunas espacio de entrada $\mathcal{X}$, uno puede imaginar tener una distribución de Bernoulli para todos los puntos en $\mathcal{X}$. Más a menudo, usted sólo tiene 1 observación $y_i$ por Bernoulli distribución, que se encuentra en $x_i$. Conjuntamente la aplicación de estimación de máxima verosimilitud para todos observaron distribuciones de Bernoulli $y_i \thicksim \text{Ber}(\pi(x_i))$ va a aplicar varias restricciones a $\pi_\theta$. Puesto que todas estas restricciones lleva la imparcialidad de las estimaciones, y mientras la función $\pi_\theta$ es sufficently flexible para adaptarse a la verdadera función de probabilidad subyacente $\pi^*$, entonces el proceso de aprendizaje es constante y convergerán para el modelo óptimo de como obtener más datos. Por lo tanto, limitando el modelo capacidad (menos características, por ejemplo) puede dificultar la calibración de una regresión logística mediante el aumento de la distancia entre las mejores que se puede aprender del modelo y el modelo verdadero.

El uso incorrecto del modelo de observación con la regresión logística llevará a calibrados probabilidades. Modelado binario de eventos con una distribución normal que es inapropiado, y no debe ser utilizado en combinación con regresión logística. La pérdida de la función correspondiente a la distribución normal modelo de observación es el Error cuadrático medio. Por lo tanto, el uso de un MSE pérdida sería certaintly dificultan su calibración.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X