La probabilidad marginal se utiliza generalmente para tener una medida de cómo se ajusta el modelo. Se puede encontrar la probabilidad marginal de un proceso como la marginalización sobre el conjunto de parámetros que gobiernan el proceso Esta integral generalmente no está disponible y no puede ser calculada en forma cerrada. Sin embargo, se puede encontrar una aproximación con la suma de la verosimilitud completa y un término de penalización, que supongo que es la descomposición que has mencionado en el punto 2.
La probabilidad se calcula generalmente en escala logarítmica por razones de estabilidad numérica: considere un ordenador que sólo puede almacenar números entre 99.000 y 0,001 (sólo tres decimales) más el signo. Si se calcula una densidad y en algún punto ésta tiene valor 0,0023456789, en el ordenador se almacenará como 0,003 perdiendo parte del valor real, si se calcula en escala logarítmica el log(0,0023456789)=-6,05518 se almacenará como -6,055 perdiendo menos que en la escala original. Si se multiplican muchos valores pequeños, la situación empeora: considere que 0,00234567892 se almacenará como 0 mientras que log(0,00234567892)=-12,11036