4 votos

El grado de detalle debe controlada por datos Bayesiana antes de ser?

Exactamente mi problema es este.

Tengo un número de fuentes de tráfico con diferentes tasas de conversión. Tengo una buena evidencia de que las tasas de conversión varían según la fuente. Para cada fuente de tráfico que he cuántos clientes potenciales que tenemos, y cómo muchos de los convertidos. Quiero una estimación de cada fuente, la tasa de conversión. No necesito fuentes individuales para ser estimado con precisión (esto sería imposible, dado que muchas de las fuentes de tráfico sólo han 0-5 medir las conversiones). En su lugar me gustaría ser capaz de decir que, a través de todas las fuentes de tráfico estimado en el 1%-1.5% promedio de las tasas de conversión, el promedio de futuro de la tasa de conversión es probable que en algún lugar de la general (de béisbol).

La solución obvia de utilizar el rendimiento en el pasado para predecir el rendimiento futuro de cada fuente individual no mal por el bien conocido fenómeno de la regresión a la media. Por ejemplo, entre las pequeñas fuentes de tráfico sin conversiones hay una expectativa razonable de rendimiento en el futuro ser mejor que eso. Y de la misma manera las pequeñas fuentes de tráfico con un montón de conversiones es raro para mantener su registro.

Mi ingenua idea es tomar mis datos, y usarlo para producir una razonable Bayesiano antes de que la verdadera tasa de conversión de un azar fuente de tráfico. A continuación, para cada fuente puede empezar con que antes y producir una distribución posterior para que la verdadera tasa de conversión de esa fuente. Y entonces mi estimación de la media de la tasa de conversión para que la fuente será la media de la parte posterior.

Mi idea inicial de cómo adaptarse a los datos de un plazo razonable antes de obras como esta. Mi anterior será la suma de funciones lineales a trozos, que pueda ser de 0 a un punto de partida, el origen a un punto medio, a continuación, caer hasta el punto final después de la cual es 0 de nuevo. Para una determinada división del rango probable de las tasas de conversión en estos intervalos y puntos medios, antes de que me gustaría producir sería el de maximizar la suma de los logaritmos de las probabilidades de que cada fuente de tráfico tendría las conversiones que se hicieron.

Mi problema es que las piezas más puedo dividir mi intervalo en el que más de cerca me puede caber mi conjunto de datos existente. Pero en algún punto estoy claramente sobre-ajuste. Hay lineamientos que puedo usar para conseguir un sentido cuando estoy más ajustada a mi antes de mis datos?

Estoy pensando que podría ser algo así como una estadística que me puede calcular para probar cómo de cerca mis datos medidos se ajusta a la anterior - si los datos medidos se tiene un mejor ajuste a la previa de un "azar" conjunto de datos debe, entonces probablemente he ido demasiado lejos.

Agradecería si alguien puede sugerir una estadística, una alternativa de la regla de oro para evitar más conveniente, o un enfoque diferente para el problema original. Ya que no tienen acceso a una biblioteca de la universidad, por favor, sólo sugieren ciertos libros o papeles detrás de barreras de pago si están garantizados a ser muy importantes para mi problema.

3voto

patfla Puntos 1

De los datos anteriores, no es necesariamente lo que usted necesita. Suena más como usted necesita una jerárquico antes o un modelo multinivel. Esto implica el uso de los llamados "efectos aleatorios" en su modelo. La forma más básica de este modelo es dado como

$$(y_{ij}|\beta_0,u_i,\sigma^2)\sim\mathcal{N}(\beta_0+u_i,\sigma^2)$$

Donde yo índices de su origen, y j índices específicos mide la conversión. Nosotros, a continuación, especifique una antes de la $u_i$ mediante el uso de otro parámetro:

$$(u_i|\tau^2)\sim\mathcal{N}(0,\tau^2)$$

Luego de completar la previa mediante la especificación de una distribución de $p(\beta_0,\sigma^2,\tau^2)$. Generalmente uniforme está bien. Lo que esta estructura no es a causa de las predicciones para un ser un promedio ponderado de la predicción usando todos los datos y las predicciones utilizando sólo los datos de la i-ésima fuente. Esto suena como lo que usted está buscando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X