17 votos

¿Una regresión logística que maximiza la probabilidad también maximiza el AUC sobre los modelos lineales?

Dado un conjunto de datos con resultados binarios $y\in\{0,1\}^n$ y alguna matriz de predicción $X\in\mathbb{R}^{n\times p}$ el modelo de regresión logística estándar estima los coeficientes $\beta_{MLE}$ que maximizan la probabilidad binomial. Cuando $X$ es de rango completo $\beta_{MLE}$ es única; cuando la separación perfecta no está presente, es finita.

¿Este modelo de máxima verosimilitud también maximiza el AUC del ROC (también conocido como $c$ -), o existe alguna estimación del coeficiente $\beta_{AUC} \neq \beta_{MLE}$ ¿cuál obtendrá un AUC ROC más alto? Si es cierto que la MLE no maximiza necesariamente el ROC AUC, entonces otra forma de ver esta pregunta es "¿Existe una alternativa a la maximización de la verosimilitud que siempre maximizará el ROC AUC de una regresión logística?"

Estoy asumiendo que los modelos son, por lo demás, los mismos: no estamos añadiendo o eliminando predictores en $X$ o cambiar la especificación del modelo, y asumo que los modelos de maximización de la verosimilitud y de AUC utilizan la misma función de enlace.

4 votos

Seguramente $\beta_{\text{AUC}} \neq \beta_{\text{MLE}}$ si, por ejemplo, alguna función de enlace genera un ajuste mejor que un logit? Aparte de eso, buena pregunta, si el proceso de generación de datos puede asumirse como logit.

0 votos

Buena pregunta, pero considere lo siguiente. ROC y AUC se utilizan para comparar dos modelos diferentes, por lo que si una solución para la estimación MLE de cualquier modelo es única, esto significa que usted puede obtener un AUC diferente sólo si cambia la especificación del modelo actual y estima un nuevo modelo diferente a través de MLE. Así que en este punto otra pregunta sería: ¿hay algún otro método de estimación "mejor" (algoritmo de maximización ecc) que no sea el simple MLE aplicable al mismo modelo de tal manera que llegue a diferentes estimaciones de los coeficientes que conduzcan a nuevas betas "mejores" con mayor AUC?

0 votos

@Nutle exactamente, eso sería una especificación diferente

15voto

Cliff AB Puntos 3213

No es el caso que $\beta_{MLE} = \beta_{AUC}$ .

Para ilustrar esto, consideremos que el AUC puede escribirse como

$P(\hat y_1 > \hat y_0 | y_1 = 1, y_0 = 0)$

En otras palabras, el orden de las predicciones es lo único que afecta al AUC . Este no es el caso de la función de probabilidad. Así que, como ejercicio mental, supongamos que tenemos un único predictor y que en nuestro conjunto de datos no vemos una separación perfecta (es decir, $\beta_{MLE}$ es finito). Ahora, si simplemente tomamos el valor del predictor más grande y lo aumentamos en una pequeña cantidad, cambiaremos la probabilidad de esta solución, pero no cambiará el AUC, ya que el ordenamiento debería seguir siendo el mismo. Así, si el antiguo MLE maximizaba el AUC, seguirá maximizando el AUC después de cambiar el predictor, pero ya no maximizará la probabilidad.

Por lo tanto, como mínimo, no es el caso que $\beta_{AUC}$ no es único; cualquier $\beta$ que preserva el orden de las estimaciones logra exactamente el mismo AUC. En general, dado que el AUC es sensible a diferentes aspectos de los datos, creo que deberíamos ser capaces de encontrar un caso en el que $\beta_{MLE}$ no maximiza $\beta_{AUC}$ . De hecho, me atrevería a decir que esto ocurre con alta probabilidad.

EDITAR (trasladar el comentario a la respuesta)

El siguiente paso es demostrar que el MLE no necesariamente maximiza el AUC (lo que aún no está demostrado). Se puede hacer esto tomando algo como los predictores 1, 2, 3, 4, 5, 6, $x$ (con $x > 6$ ) con resultados 0, 0, 0, 1, 1, 1, 0. Cualquier valor positivo de $\beta$ maximizará el AUC (independientemente del valor de $x$ ), pero podemos elegir un $x$ lo suficientemente grande como para que el $\beta_{MLE} < 0$ .

2 votos

(+1) ¡Ah! Por supuesto -- ya que se trata de ordenar, podríamos cambiar arbitrariamente el intercepto que, obviamente, debe cambiar el valor de probabilidad, pero el orden debe ser el mismo porque ninguno de los coeficientes de características han cambiado, por lo que el AUC se mantendrá fijo.

1 votos

+1. ¿El editar ejemplo de trabajo con $n \rightarrow \infty$ Pero Si necesitamos tomar $x$ para que esto funcione con grandes $n$ ¿la probabilidad de que existan tales valores no converge rápidamente a 0, para algún logit fijo?

0 votos

@Nutle: bueno, depende de lo que quieras decir sobre $n \rightarrow \infty$ . Si tomamos $n$ copias (predictores + resultados) de mi conjunto de datos de juguete, entonces sí se mantendría el resultado. Sin embargo, si tomamos $n$ copias de ese conjunto de predictores, y los datos procedieran realmente de un modelo de regresión logística, eso casi nunca ocurriría (como usted señala). Tenga en cuenta, sin embargo, que algo parecido a esto podría ocurriría con alta probabilidad si la relación entre los predictores no siguiera realmente un modelo de regresión logística.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X