4 votos

Añadir eliges predicha de regresión logística en lugar de utilizar el valor de corte

Estoy utilizando un modelo de regresión logística para predecir una decisión binaria (compra, no compra) basado en varias variables independientes (ingresos, edad, educación, etc.) para una población de individuos (clientes). Tengo los datos de las personas procedentes de uno o más períodos de tiempo anteriores, y quiero predecir el comportamiento de los diferentes individuos en un periodo de tiempo futuro. Por desgracia, mi experiencia es con la explicación, no la predicción.

Mi interés es en la predicción del comportamiento global-por ejemplo, ¿cuál es el total predijo las compras efectuadas por los clientes en un periodo de tiempo futuro en base a sus características? Puedo ver dos maneras de hacer esto. En primer lugar, puedo utilizar los parámetros del modelo de regresión logística para generar una probabilidad [0-1] para cada cliente en el futuro período de tiempo, a continuación, utilizar un valor de corte (0.5) para resolver esas probabilidades a 0 o 1, entonces la suma de 1s a generar una estimación del total de las compras. Segundo, podría utilizar los parámetros del modelo de regresión logística para generar una probabilidad [0-1] para cada cliente en el futuro período de tiempo (como antes), entonces simplemente la suma de esas probabilidades para generar una estimación del total de las compras (sin necesidad de utilizar un valor de corte).

El segundo enfoque (la adición de las probabilidades) que tiene más sentido para mí, pero el material de referencia que he consultado hasta ahora los marcos de la tarea de predicción en términos de corte de los valores y tablas de clasificación. Es el segundo enfoque conceptualmente errónea? Si es así, ¿por qué? Muchas gracias.

ADDENDUM: Con respecto a las referencias que he consultado, a menudo se sugiere el uso de valores de corte y tablas de clasificación, con la formación y los conjuntos de validación, para evaluar el rendimiento real de un modelo logit. Sin embargo, yo habría pensado que la suma de las probabilidades habría sido una mejor manera de hacer eso.

1voto

Stefan Wager Puntos 1263

Para lo que estamos tratando de hacer, el segundo enfoque parece mejor para mí. Si el modelo está correctamente especificado, entonces usted va a converger a la respuesta correcta $n \rightarrow \infty$. Mientras tanto, el primer enfoque, es decir, de corte de 0.5, podría ir muy mal si usted tiene un montón de probabilidades que son sistemáticamente alrededor de un 40% o 60%.

Una de seguimiento, sin embargo: ¿estás seguro de que siempre va a tener 0 o 1 compras por período de tiempo? O también es posible que la gente a comprar 2, 3, etc. elementos? Si es así, me gustaría recomendar hacer de regresión de Poisson en lugar de la regresión logística. De regresión de Poisson es la forma estándar de la predicción de las cantidades de la forma "el número de veces que algo suceda".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X