2 votos

Clasificación de los intervalos de predicción: ¿comparaciones múltiples?

Me adapto a un modelo que intenta adecuar la personalidad de los comerciales a los clientes basándose en datos demográficos. Se trata de un modelo bayesiano jerárquico que predice la probabilidad de conversión con un representante de ventas en función de los datos demográficos del cliente. Es decir, ¿algunos comerciales son buenos hablando con clientes mayores o más jóvenes?

$$ P(\text{Conversion w/ Sales Rep[i]} | \text{Customer's Demographic}) = \alpha[\text{sales rep}[i]] + \beta[\text{sales rep}[i]] X $$

A continuación, tomo un cliente entrante, hago una predicción de la probabilidad de conversión de ese cliente con todos y cada uno de los agentes y clasifico los intervalos de predicción: el mejor agente con el que emparejar a este cliente es el que tiene el intervalo creíble de mayor probabilidad de conversión.

  1. ¿Es razonable hacer esto o viola el problema de las comparaciones múltiples ya que empiezo a comparar 100 intervalos creíbles de predicción diferentes? ¿Está bien porque es bayesiano?

  2. Si 1 es razonable, ¿seguiría siendo válido el mismo planteamiento si utilizara un modelo frecuentista y en su lugar empleara intervalos de confianza?

3). ¿Cuál es una buena manera de evaluar el modelo? Parece que no me importa tanto la capacidad predictiva, sino más bien que la cobertura de los intervalos creíbles sea plausible - ¿hay una buena manera de validar eso para modelos logísticos como éste?

3voto

Alex Puntos 128
  1. Es casi seguro que cometerás algún error al hacerlo, pero eso no invalida el método en mi opinión. El problema de las comparaciones múltiples no parece plantearse, ya que no se trata de una prueba de hipótesis propiamente dicha.

  2. A mí también me parece bien un modelo frecuentista de efectos mixtos, pero no estoy seguro de cómo utilizarías el propio intervalo para tomar la decisión. Suponiendo que dos intervalos se solaparan, ¿qué harías? No queda claro en tu pregunta.

  3. Parece que no me importa tanto la capacidad de predicción

¿De verdad? Más o menos, ya que te interesa predecir qué representante desplegar. En cualquier caso, creo que las comprobaciones predictivas posteriores son probablemente la mejor forma de proceder. Qué comprobaciones realizar depende del problema, y sólo tú sabes mejor lo que importa en este contexto.

Aparte de todo esto, probablemente lo plantearía como un problema de decisión bayesiano. En lugar de desplegar la rep con la mayor probabilidad estimada, calcularía la pérdida esperada de desplegar la rep $i$ . Puede darse el caso de que algunos efectos de algunas repeticiones sean bastante grandes, pero bastante inciertos. En tales casos, la pérdida esperada sería mayor que la de un representante con una probabilidad de conversión menor pero estimada con mayor precisión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X