Estoy utilizando un modelo de regresión logística para predecir una decisión binaria (compra, no compra) basado en varias variables independientes (ingresos, edad, educación, etc.) para una población de individuos (clientes). Tengo los datos de las personas procedentes de uno o más períodos de tiempo anteriores, y quiero predecir el comportamiento de los diferentes individuos en un periodo de tiempo futuro. Por desgracia, mi experiencia es con la explicación, no la predicción.
Mi interés es en la predicción del comportamiento global-por ejemplo, ¿cuál es el total predijo las compras efectuadas por los clientes en un periodo de tiempo futuro en base a sus características? Puedo ver dos maneras de hacer esto. En primer lugar, puedo utilizar los parámetros del modelo de regresión logística para generar una probabilidad [0-1] para cada cliente en el futuro período de tiempo, a continuación, utilizar un valor de corte (0.5) para resolver esas probabilidades a 0 o 1, entonces la suma de 1s a generar una estimación del total de las compras. Segundo, podría utilizar los parámetros del modelo de regresión logística para generar una probabilidad [0-1] para cada cliente en el futuro período de tiempo (como antes), entonces simplemente la suma de esas probabilidades para generar una estimación del total de las compras (sin necesidad de utilizar un valor de corte).
El segundo enfoque (la adición de las probabilidades) que tiene más sentido para mí, pero el material de referencia que he consultado hasta ahora los marcos de la tarea de predicción en términos de corte de los valores y tablas de clasificación. Es el segundo enfoque conceptualmente errónea? Si es así, ¿por qué? Muchas gracias.
ADDENDUM: Con respecto a las referencias que he consultado, a menudo se sugiere el uso de valores de corte y tablas de clasificación, con la formación y los conjuntos de validación, para evaluar el rendimiento real de un modelo logit. Sin embargo, yo habría pensado que la suma de las probabilidades habría sido una mejor manera de hacer eso.