6 votos

Cómo evaluar el ajuste de una regresión logística

Tengo un conjunto de puntos de datos, que muestran una sólida correlación lineal r0.9. Estoy básicamente de trazado de la población en ciertas áreas con el número de ocurrencias de un fenómeno determinado (en otras palabras, creo que el número de personas que deben predecir el número de ocurrencias de este fenómeno).

No me gusta la regresión lineal, aunque, debido a un modelo lineal puede tomar en negativo o grandes valores. En mi caso, los valores deben ser positivos, y hay un límite superior (que no lo sé; pero, lógicamente, los valores sólo se puede obtener tan grande). Por desgracia, uno de los insumos para la cual necesito una predicción de la salida es mucho mayor que las entradas que he utilizado para hacer una regresión.

Esto me hizo elegir un modelo logístico lugar, y=A1+BeCx porque estoy familiarizado con su forma (siempre positivo, y se aproxima a un valor límite) de básica de las ecuaciones diferenciales, y parece ser lo que quiero para esta situación. También los datos tiene un pequeño "punto de inflexión", por lo que la curvatura de la regresión logística (visualmente para mí) es incluso un poco mejor ajuste para los datos de los puntos de la línea.

Así que, finalmente, mi pregunta(s):

  1. Sigo leyendo en internet que los modelos logísticos están destinados para las probabilidades, que toma valores entre 01. Me gustaría, además de tener un alto r, para probar y la razón por la cual este tipo de modelo "tiene sentido" para mi situación: me voy a la dirección equivocada aquí?

  2. ¿Cómo puedo medir la "bondad de ajuste" de mi curva a los puntos de datos? He leído en Wikipedia , pero es demasiado vago para mí entender. Una fórmula explícita - debe ser computable por calculadora de mano - sería útil.

He hecho mi investigación, pero absolutamente nada de lo que he encontrado en internet ha sido accesible para mí, ya sé prácticamente nada acerca de las estadísticas. Una introducción/explicación fácil sería tan bonito... y mi experiencia en las matemáticas es mucho más fuerte que las estadísticas de mi fondo, a fin de utilizar todas las matemáticas que quieras, pero supongamos que yo soy un principiante en las estadísticas. Quiero que sea algo demasiado riguroso - como si me podría conectar un número en un t-Test, por ejemplo, que sería bueno para obtener un valor "objetivo".

3voto

jubo Puntos 626

Estándar de la regresión logística univariante de y x encuentra los coeficientes α, β que mejor ajuste los datos de sus entrenamientos {(xi,yi),i[1,N]} en la siguiente ecuación:

(modelo 1): yi=(1+exp((α+βxi)))1

Tenga en cuenta que el ajuste va a ser malo si el y en los datos no están en (0,1), por lo que tendrá que transformar sus datos si desea utilizar la regresión logística. Una opción podría ser la de transformar y en una proporción (número de ocurrencias de la "fenómeno" dividido por la población del área correspondiente?).

También, el hecho de que "uno de los insumos para la cual necesito una predicción de la salida es mucho mayor que las entradas que he utilizado para hacer una regresión" es un problema, porque va a ser la extrapolación de los resultados del modelo a las desconocidas regiones de los datos. Un valor de xi mucho mayor que el que en la formación de la muestra probablemente le dará un ^yi muy cercano a 1.

Directamente en la evaluación del error de predicción

Una vez que el modelo está equipado y tiene un estimado de los parámetros de ^α^β, se obtiene una predicción de la salida de valor de ^yi para cada observación xi: ^yi=(1+exp((^α+^βxi)))1. Usted puede fácilmente evaluar la bondad de ajuste en su calculadora gráfica con el uso de la observó yi y sus correspondientes predecir los valores de ^yi:

  • ya sea por el trazado de uno contra el otro (si el ajuste era perfecto esto le daría una línea recta, la identidad de la línea, porque, a continuación,y=^y)

  • o por el cálculo de una medida de error, por ejemplo el root mean squared error: rmse=1NNi=0(yi^yi)2. Esto le dirá a la distancia media entre los resultados observados yi y el modelo predijo los resultados de ^yi (el menor rmse, el mejor es el ajuste). No es un puntaje estandarizado como R2, pero es fácil de calcular e interpretar.

Ahora, para evaluar el poder de predicción del modelo, lo mejor es comparar las yi ^yi sobre un conjunto de datos de validación, es decir,. los datos que no fueron utilizados en el ajuste (por ejemplo. mediante la retención de una porción de los datos durante el entrenamiento, consulte la validación cruzada para obtener más información).

Pseudo-R2

La costumbre R2 de regresión lineal no se aplica a la regresión logística, para que varias de las medidas alternativas existen. En todas las variantes, R2 es un valor real entre 0 y 1, y cuanto más cercano a 1 mejor es el modelo.

Uno de ellos utiliza el cociente de probabilidad, y se define como sigue:

R2L=1L1L0 donde L1 L0 son el logaritmo de la probabilidad de (respectivamente) modelo 1 (ver arriba) y el siguiente modelo 0, que es una de regresión logística en sólo una constante (y no depende de la x):

(modelo 0): yi=(1+exp(α))1

Para cualquier modelo de regresión logística con y{0,1} el logaritmo de la probabilidad se calcula a partir de la observó y y la predicción de la ^y, utilizando la siguiente fórmula (pero no estoy seguro de que se aplica para la continua y[0,1]):

L=Ni=1(yiln(^yi)+(1yi)ln(1^yi))

Otro pseudo-R2 se basa en la correlación lineal de y^y, que es fácil de calcular, en cualquier gráfico de la calculadora con funciones stat:

R2cor=(ˆcor(yi,^yi))2

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X