Para responder a tu pregunta: puedes utilizar la densidad de suavizado. Pero no es necesario. La respuesta de Jarle Tufto tiene la descomposición que estás utilizando. Pero hay otras.
Uso de las Recursiones de Kalman
Aquí estás evaluando la probabilidad como $$ f(y_1, \ldots, y_n) = f(y_1)\prod_{i=2}^nf(y_i|y_1, \ldots, y_{i-1}). $$
Sin embargo, las medias y las varianzas no siempre definen completamente las distribuciones de probabilidad en general. La siguiente es la descomposición que se utiliza para pasar de filtrar distribuciones $f(x_{i-1}|y_1,\ldots,y_{i-1})$ a las probabilidades condicionales $f(y_i|y_1,\ldots,y_{i-1})$ :
$$ f(y_i|y_1, \ldots, y_{i-1}) = \iint f(y_i|x_i)f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1})dx_{i} dx_{i-1} \tag{1}. $$
Aquí $f(x_i|x_{i-1})$ es la densidad de transición de estado...parte del modelo, y $f(y_i|x_i)$ es la densidad de observación... parte del modelo de nuevo. En tu pregunta los escribes como $x_{t+1}=Fx_{t}+v_{t+1}$ y $y_{t}=Hx_{t}+Az_{t}+w_{t}$ respectivamente. Es lo mismo.
Cuando se obtiene la distribución de predicción de estado de un paso adelante, eso es computar $\int f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1}) dx_{i-1}$ . Cuando integras de nuevo, obtienes (1) por completo. Si escribes esa densidad completamente en tu pregunta, es lo mismo.
Aquí sólo estás usando descomposiciones de distribuciones de probabilidad, y suposiciones sobre el modelo. Este cálculo de probabilidad es un cálculo exacto. No hay nada discrecional que puedas usar para hacerlo mejor o peor.
Uso del algoritmo EM
Que yo sepa, no hay otra forma de evaluar la probabilidad directamente en este tipo de modelo de espacio de estados. Sin embargo, se puede hacer una estimación de máxima verosimilitud evaluando una función diferente: se puede utilizar el algoritmo EM. En el paso de la expectativa (paso E) se calcularía $$ \int f(x_1, \ldots, x_n|y_1,\ldots y_n) \log f(y_1,\ldots,y_n,x_1, \ldots,x_n) dx_{1:n} = E_{smooth}[\log f(y_1,\ldots,y_n,x_1, \ldots,x_n)]. $$ Aquí $f(y_1,\ldots,y_n,x_1, \ldots,x_n)$ es la probabilidad de los "datos completos", y estás tomando la expectativa del logaritmo de eso con respecto a la densidad de suavización conjunta. Lo que suele ocurrir es que, al tomar el logaritmo de esta verosimilitud de los datos completos, los términos se dividen en sumas y, debido a la linealidad del operador de expectativas, se toman las expectativas con respecto a las distribuciones marginales de suavizado (las que mencionas en tu pregunta).
Otras cosas
He leído en algunos sitios que el EM es una forma "más estable" de maximizar la probabilidad, pero nunca he visto realmente este punto bien argumentado, ni he visto esta palabra "estable" definida en absoluto, pero tampoco he examinado realmente esto más a fondo. Ninguno de estos algoritmos evita el problema de los máximos locales/globales. Personalmente, tiendo a utilizar el Kalman más a menudo sólo por costumbre.
Es cierto que las estimaciones suavizadas del estado tienen una varianza más pequeña normalmente que el filtrado, así que supongo que tienes razón al tener alguna intuición sobre esto, pero no estás usando realmente los estados. La probabilidad que estás tratando de maximizar no es una función de los estados.
0 votos
He editado el título para que sea más informativo.