(Disculpa si mi uso de los términos es incorrecto, no soy matemático de profesión y lo que aprendí hace tiempo estaba en otro idioma)
Lo que sé: La longitud total del flujo, el cuerpo de los posibles eventos, el conteo de pops para cada evento, y el rango de cada evento (esencialmente el índice de la última instancia de este evento).
Lo que quiero: Dada una corriente de eventos entrantes, estoy tratando de predecir cuál será el próximo evento, es decir, calcular la probabilidad de que el próximo evento sea uno determinado de la población conocida.
Ejemplo:
Digamos que el flujo entrante es
ABABCCCC (not known by the receiver)
Conocido por el receptor:
Length=8
Count Range
A: 2 3
B: 2 4
C: 4 8
Ignorando el componente de rango, podemos calcular trivialmente la probabilidad de cada evento dividiendo su pop-count entre la longitud total del mensaje:
Count Range Prob
A: 2 3 0.25
B: 2 4 0.25
C: 4 8 0.50
Al observar el rango podemos calcular la probabilidad local de que cada evento sea el siguiente (por local Me refiero a considerar sólo el evento actual).
Count Range Local prob
A: 2 3 2/3 = 0.6666
B: 2 4 2/4 = 0.5
C: 4 8 4/8 = 0.5
Pero, ¿cómo puedo combinar los dos tipos de probabilidad en un solo valor sin tener que enumerar todas las combinaciones y comprobar cada una de ellas para ver si coincide con las restricciones?
Es obvio por la inspección que en este caso particular la probabilidad de que el próximo evento sea una C es 0.0 aquí ya que tener cualquier cosa que no sea A o B como el primer evento impediría que todos los As y Bs ocurrieran dentro de su rango, pero no está claro para mí cómo debería ser el cálculo formal.
-
Un poco más de contexto:
En el escenario real, el número de eventos únicos puede ser de unos pocos miles, mientras que la longitud del flujo puede ser de unos pocos miles de millones, mientras que el rango del millón será más típico.
Puedo precalcular algunos eventos entrantes esencialmente de forma gratuita, por lo que quiero elegir el o los más probables para intentar ahorrar el coste total.
Los eventos pueden ir y venir - uno de los eventos estáticos es Definir Nuevo Evento - no incluí este hecho inicialmente porque no afecta al tema en cuestión. A veces todo Los rangos de vida serán tan largos que los rangos individuales no importan - puedo ir con la probabilidad directa basada sólo en el conteo de población, pero de vez en cuando habrá ráfagas cortas de eventos que son de corta duración, pero cuya probabilidad superará localmente las de los eventos de mayor duración y población. El cálculo no tiene por qué ser exacto; si puedo calcular una tendencia razonable, eso ayudará sin duda.