Exactamente mi problema es este.
Tengo un número de fuentes de tráfico con diferentes tasas de conversión. Tengo una buena evidencia de que las tasas de conversión varían según la fuente. Para cada fuente de tráfico que he cuántos clientes potenciales que tenemos, y cómo muchos de los convertidos. Quiero una estimación de cada fuente, la tasa de conversión. No necesito fuentes individuales para ser estimado con precisión (esto sería imposible, dado que muchas de las fuentes de tráfico sólo han 0-5 medir las conversiones). En su lugar me gustaría ser capaz de decir que, a través de todas las fuentes de tráfico estimado en el 1%-1.5% promedio de las tasas de conversión, el promedio de futuro de la tasa de conversión es probable que en algún lugar de la general (de béisbol).
La solución obvia de utilizar el rendimiento en el pasado para predecir el rendimiento futuro de cada fuente individual no mal por el bien conocido fenómeno de la regresión a la media. Por ejemplo, entre las pequeñas fuentes de tráfico sin conversiones hay una expectativa razonable de rendimiento en el futuro ser mejor que eso. Y de la misma manera las pequeñas fuentes de tráfico con un montón de conversiones es raro para mantener su registro.
Mi ingenua idea es tomar mis datos, y usarlo para producir una razonable Bayesiano antes de que la verdadera tasa de conversión de un azar fuente de tráfico. A continuación, para cada fuente puede empezar con que antes y producir una distribución posterior para que la verdadera tasa de conversión de esa fuente. Y entonces mi estimación de la media de la tasa de conversión para que la fuente será la media de la parte posterior.
Mi idea inicial de cómo adaptarse a los datos de un plazo razonable antes de obras como esta. Mi anterior será la suma de funciones lineales a trozos, que pueda ser de 0 a un punto de partida, el origen a un punto medio, a continuación, caer hasta el punto final después de la cual es 0 de nuevo. Para una determinada división del rango probable de las tasas de conversión en estos intervalos y puntos medios, antes de que me gustaría producir sería el de maximizar la suma de los logaritmos de las probabilidades de que cada fuente de tráfico tendría las conversiones que se hicieron.
Mi problema es que las piezas más puedo dividir mi intervalo en el que más de cerca me puede caber mi conjunto de datos existente. Pero en algún punto estoy claramente sobre-ajuste. Hay lineamientos que puedo usar para conseguir un sentido cuando estoy más ajustada a mi antes de mis datos?
Estoy pensando que podría ser algo así como una estadística que me puede calcular para probar cómo de cerca mis datos medidos se ajusta a la anterior - si los datos medidos se tiene un mejor ajuste a la previa de un "azar" conjunto de datos debe, entonces probablemente he ido demasiado lejos.
Agradecería si alguien puede sugerir una estadística, una alternativa de la regla de oro para evitar más conveniente, o un enfoque diferente para el problema original. Ya que no tienen acceso a una biblioteca de la universidad, por favor, sólo sugieren ciertos libros o papeles detrás de barreras de pago si están garantizados a ser muy importantes para mi problema.