Por lo general en la investigación biomédica, no utilizamos un conjunto de entrenamiento---acabamos de aplicar la regresión logística en la totalidad del conjunto de datos para ver los predictores que son factores de riesgo importantes para el resultado que estamos buscando a; o para mirar un predictor de interés, mientras que el control por el efecto de otros posibles predictores del resultado.
No estoy seguro exactamente lo que quieres decir con los valores de umbral, pero hay varios parámetros que uno puede buscar para optimizar: AUC, valores de corte para un dichotomizing un continuo variable predictora, valores predictivos positivos y negativos, los intervalos de confianza y los valores de p, falsos positivos y falsos negativos en las tasas.
La regresión logística se ve en una población de sujetos y evalúa la fuerza y la dirección causal de los factores de riesgo que contribuyen a los resultados de interés en la población. También es posible a correr "a la inversa", por así decirlo, y determinar el riesgo de un individuo el resultado dado los factores de riesgo que la persona tiene. La regresión logística asigna a cada individuo un riesgo de que el resultado, basado en sus factores de riesgo individuales, y por defecto es 0.5. Si el sujeto de la probabilidad de tener el resultado (basado en todos los datos y de los sujetos en su modelo) es de 0,5 o más, predice que va a tener el resultado; si está por debajo de 0,5, a continuación, se predice que no. Pero usted puede ajustar este nivel de corte, por ejemplo, la bandera más personas que podrían estar en riesgo de tener el resultado, aunque al precio de tener más falsos positivos que es predicho por el modelo. Usted puede ajustar este nivel de corte para optimizar la detección de decisiones con el fin de predecir qué individuos se les recomienda tener más médicos de seguimiento, por ejemplo; y para la construcción de su valor predictivo positivo, valor predictivo negativo, y los falsos negativos y las tasas de falsos positivos para la prueba de detección basado en el modelo de regresión logística. Usted puede desarrollar el modelo en la mitad de su conjunto de datos de prueba y en la otra mitad, pero que realmente no tienen que (y, de hacerlo, será cortado de su "formación" de los datos en la mitad y por lo tanto reducir el poder para encontrar predictores significativos en el modelo). Así que sí, se puede "entrenar toda la cosa extremo a extremo". Por supuesto, en la investigación biomédica, que se desea validar en otra población, otro conjunto de datos antes de decir sus resultados pueden ser generalizados a una población más amplia. Otro enfoque es el uso de un arranque de enfoque de tipo donde ejecutar el modelo en una submuestra de la población de estudio, a continuación, reemplazar a los sujetos de vuelta a la piscina y repita con la otra muestra, muchas veces (normalmente 1000 veces). Si obtiene resultados significativos en la forma prescrita, la mayoría del tiempo (por ejemplo, el 95% del tiempo), el modelo puede considerarse validado---al menos en sus propios datos. Pero, de nuevo, la más pequeña de la población de estudio de ejecutar el modelo, menos probable será que algunos predictores será factores de riesgo estadísticamente significativos para el resultado. Esto es especialmente cierto para estudios biomédicos con un número limitado de participantes.
Utilizando la mitad de sus datos para "entrenar" a su modelo y, a continuación, 'validar' en la otra mitad es una carga innecesaria. No se trata de eso de la t de student o test de regresión lineal, así que ¿por qué hacerlo en la regresión logística? La mayoría de los que va a hacer es dejar de decir 'sí funciona, pero si usted utiliza su completo conjunto de datos, a continuación, determinar que, de todos modos. Rompiendo sus datos en conjuntos de datos más pequeños corre el riesgo de no detectar los factores de riesgo significativos en la población de estudio (O la validación de la población), cuando en realidad están presentes, debido al pequeño tamaño de la muestra, que tiene demasiadas predictores para su estudio el tamaño, y la posibilidad de que su "validación de la muestra' mostrará asociaciones no sólo de la casualidad. La lógica detrás de la 'tren después de validar el enfoque parece ser que si los factores de riesgo que se identifican como importantes no están lo suficientemente fuerte, entonces ellos no van a ser estadísticamente significativa cuando se modelan en algunos al azar elegido la mitad de los datos. Pero que aleatoriamente elegidos de la muestra podría suceder que no muestran asociación sólo por casualidad, o porque es demasiado pequeño para el factor de riesgo(s) para ser significativo estadísticamente. Pero la magnitud del factor de riesgo(s) Y su significación estadística, que determinan su importancia y por esa razón es mejor usar su completo conjunto de datos para construir su modelo. La significación estadística se vuelven menos importantes con pequeños tamaños de muestra, como ocurre con la mayoría de las pruebas estadísticas.
Haciendo la regresión logística es un arte, casi tanto como un estadístico de la ciencia. Existen diferentes formas de uso y los diferentes parámetros a optimizar dependiendo de su estudio de diseño.