17 votos

Pregunta filosófica sobre la regresión logística: ¿por qué no se entrena el valor de umbral óptimo?

Por lo general en la regresión logística, se ajustan a un modelo y obtener algunas predicciones sobre el conjunto de entrenamiento. Luego nos validación cruzada en aquellos formación predicciones (algo así como aquí) y decidir el valor de umbral óptimo basado en algo como la curva ROC.

¿Por qué no incorporar la validación cruzada del umbral EN el modelo real, y capacitar a la totalidad de la cosa de extremo a extremo?

21voto

Sean Hanley Puntos 2428

Un umbral no está capacitado con el modelo dado que la regresión logística no es un clasificador (cf., ¿Por qué no Regresión Logística se llama Logística de Clasificación?). Es un modelo para estimar el parámetro de $p$, que gobierna el comportamiento de la distribución de Bernoulli. Es decir, suponiendo que la respuesta de distribución, con la condición de que las covariables, es de Bernoulli, y lo que desea estimar el parámetro que controla que los cambios de variables en función de las covariables. Es un directo modelo de probabilidad sólo. Por supuesto, puede ser utilizado como un clasificador posteriormente, y a veces es en ciertos contextos, pero sigue siendo un modelo de probabilidad.

15voto

icelava Puntos 548

Es porque el umbral óptimo no es sólo una función de la tasa de verdaderos positivos (TPR), la tasa de falsos positivos (FPR), la exactitud o cualquier otra cosa. El otro ingrediente fundamental es el coste y la rentabilidad de correcto e incorrecto decisiones.

Si su destino es un resfriado común, su respuesta a una prueba positiva es prescribir dos aspirinas, y el costo de una verdadera sin tratamiento positivo que no es necesario un equivalente a dos días de dolores de cabeza, entonces su decisión óptima (no de clasificación!) umbral es muy diferente que si su destino es alguna enfermedad peligrosa para la vida, y su decisión es (a) algunos comparativamente simple procedimiento como una apendicectomía, o (b) una intervención importante como meses de quimioterapia. Y tenga en cuenta que aunque su objetivo variable puede ser binario (enfermo/sano), sus decisiones pueden tener más valores (enviar a casa con dos aspirinas/ejecutar más pruebas/admitir al hospital y ver/operar de inmediato).

Línea de base: si usted sabe que su estructura de costos y de todas las diferentes decisiones, que sin duda puede entrenar a un sistema de soporte de decisiones (DSS) directamente, que incluye una clasificación probabilístico o de predicción. Yo, sin embargo, sostienen firmemente que la discretización de las predicciones o las clasificaciones a través de los umbrales no es la manera correcta de ir sobre esto.

Véase también mi respuesta a la anterior "Clasificación umbral de probabilidad" del hilo. O esta respuesta de la mina. O que uno.

5voto

Gerhard Burger Puntos 218

Las preocupaciones filosóficas de lado, esto podría causar dificultades de cálculo.

La razón es que funciona con salida continua son relativamente fáciles de optimizar. Usted busca la dirección en donde la función se incrementa, y luego ir por ese camino. Si alteramos nuestra función de pérdida para incluir el "corte" de paso, nuestra salida se vuelve discreto, y nuestra función de pérdida es, por tanto, también discretos. Ahora, cuando se alteran los parámetros de nuestra función logística por "un poco" y conjuntamente alterar el valor de corte por "un poco", nuestra pérdida da un valor idéntico, y la optimización se hace difícil. Por supuesto, no es imposible (Hay todo un campo de estudio en discreta optimización), pero continua, la optimización es por lejos el más fácil, el problema a resolver cuando se la optimización de muchos parámetros. Muy bien, una vez que el modelo logístico ha sido la adecuada, encontrar el óptimo de corte, aunque sigue siendo una salida discreta problema, sólo se encuentra ahora en una variable, y sólo podemos hacer una cuadrícula de búsqueda, o algo así, que es totalmente viable en una variable.

3voto

user777 Puntos 10934

Independientemente del modelo subyacente, podemos averiguar la distribución de muestras de TPR y el FPR en un umbral. Esto implica que podemos caracterizar la variabilidad en la TPR y el FPR en algún umbral, y podemos de nuevo en un error deseado de la tasa de trade-off.

Una curva ROC es un poco engañoso porque la única cosa que usted puede controlar es el umbral, sin embargo la trama muestra de TPR y el FPR, que son funciones del umbral. Por otra parte, el TPR y FPR son tanto las estadísticas, por lo que están sujetos a los caprichos de un muestreo aleatorio. Esto implica que si se va a repetir el procedimiento (dicen por validación cruzada), que podría llegar con una diferente FPR y de TPR en algún valor de umbral concreto.

Sin embargo, si se puede estimar la variabilidad en la TPR y el FPR, a continuación, repetir el ROC procedimiento no es necesario. Acabamos de elegir un umbral tal que los extremos de un intervalo de confianza (con algunos de ancho) son aceptables. Es decir, elegir el modelo, por lo que el FPR es plausible a continuación algunos investigador-máximo especificado, y/o la TPR es plausible por encima de algunos investigador-mínimo especificado. Si su modelo no puede alcanzar sus metas, usted tendrá que construir un mejor modelo.

Por supuesto, lo TPR y FPR valores son tolerables en su uso va a ser dependiente del contexto.

Para obtener más información, consulte las Curvas ROC para Datos Continuos por wojtek se J. Krzanowski y David J. Mano.

-3voto

Jeremy Puntos 11

Por lo general en la investigación biomédica, no utilizamos un conjunto de entrenamiento---acabamos de aplicar la regresión logística en la totalidad del conjunto de datos para ver los predictores que son factores de riesgo importantes para el resultado que estamos buscando a; o para mirar un predictor de interés, mientras que el control por el efecto de otros posibles predictores del resultado.
No estoy seguro exactamente lo que quieres decir con los valores de umbral, pero hay varios parámetros que uno puede buscar para optimizar: AUC, valores de corte para un dichotomizing un continuo variable predictora, valores predictivos positivos y negativos, los intervalos de confianza y los valores de p, falsos positivos y falsos negativos en las tasas. La regresión logística se ve en una población de sujetos y evalúa la fuerza y la dirección causal de los factores de riesgo que contribuyen a los resultados de interés en la población. También es posible a correr "a la inversa", por así decirlo, y determinar el riesgo de un individuo el resultado dado los factores de riesgo que la persona tiene. La regresión logística asigna a cada individuo un riesgo de que el resultado, basado en sus factores de riesgo individuales, y por defecto es 0.5. Si el sujeto de la probabilidad de tener el resultado (basado en todos los datos y de los sujetos en su modelo) es de 0,5 o más, predice que va a tener el resultado; si está por debajo de 0,5, a continuación, se predice que no. Pero usted puede ajustar este nivel de corte, por ejemplo, la bandera más personas que podrían estar en riesgo de tener el resultado, aunque al precio de tener más falsos positivos que es predicho por el modelo. Usted puede ajustar este nivel de corte para optimizar la detección de decisiones con el fin de predecir qué individuos se les recomienda tener más médicos de seguimiento, por ejemplo; y para la construcción de su valor predictivo positivo, valor predictivo negativo, y los falsos negativos y las tasas de falsos positivos para la prueba de detección basado en el modelo de regresión logística. Usted puede desarrollar el modelo en la mitad de su conjunto de datos de prueba y en la otra mitad, pero que realmente no tienen que (y, de hacerlo, será cortado de su "formación" de los datos en la mitad y por lo tanto reducir el poder para encontrar predictores significativos en el modelo). Así que sí, se puede "entrenar toda la cosa extremo a extremo". Por supuesto, en la investigación biomédica, que se desea validar en otra población, otro conjunto de datos antes de decir sus resultados pueden ser generalizados a una población más amplia. Otro enfoque es el uso de un arranque de enfoque de tipo donde ejecutar el modelo en una submuestra de la población de estudio, a continuación, reemplazar a los sujetos de vuelta a la piscina y repita con la otra muestra, muchas veces (normalmente 1000 veces). Si obtiene resultados significativos en la forma prescrita, la mayoría del tiempo (por ejemplo, el 95% del tiempo), el modelo puede considerarse validado---al menos en sus propios datos. Pero, de nuevo, la más pequeña de la población de estudio de ejecutar el modelo, menos probable será que algunos predictores será factores de riesgo estadísticamente significativos para el resultado. Esto es especialmente cierto para estudios biomédicos con un número limitado de participantes.
Utilizando la mitad de sus datos para "entrenar" a su modelo y, a continuación, 'validar' en la otra mitad es una carga innecesaria. No se trata de eso de la t de student o test de regresión lineal, así que ¿por qué hacerlo en la regresión logística? La mayoría de los que va a hacer es dejar de decir 'sí funciona, pero si usted utiliza su completo conjunto de datos, a continuación, determinar que, de todos modos. Rompiendo sus datos en conjuntos de datos más pequeños corre el riesgo de no detectar los factores de riesgo significativos en la población de estudio (O la validación de la población), cuando en realidad están presentes, debido al pequeño tamaño de la muestra, que tiene demasiadas predictores para su estudio el tamaño, y la posibilidad de que su "validación de la muestra' mostrará asociaciones no sólo de la casualidad. La lógica detrás de la 'tren después de validar el enfoque parece ser que si los factores de riesgo que se identifican como importantes no están lo suficientemente fuerte, entonces ellos no van a ser estadísticamente significativa cuando se modelan en algunos al azar elegido la mitad de los datos. Pero que aleatoriamente elegidos de la muestra podría suceder que no muestran asociación sólo por casualidad, o porque es demasiado pequeño para el factor de riesgo(s) para ser significativo estadísticamente. Pero la magnitud del factor de riesgo(s) Y su significación estadística, que determinan su importancia y por esa razón es mejor usar su completo conjunto de datos para construir su modelo. La significación estadística se vuelven menos importantes con pequeños tamaños de muestra, como ocurre con la mayoría de las pruebas estadísticas. Haciendo la regresión logística es un arte, casi tanto como un estadístico de la ciencia. Existen diferentes formas de uso y los diferentes parámetros a optimizar dependiendo de su estudio de diseño.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X