11 votos

Estado oculto modelos vs apátridas modelos para series de tiempo de regresión

Esta es una pregunta genérica: supongamos que queremos construir un modelo para predecir la siguiente observación sobre la base del anterior $N$ observaciones ($N$ puede ser un parámetro para optimizar experimentalmente). Así que, básicamente, tienen una ventana deslizante de las características de entrada para predecir la siguiente observación.

Puedo utilizar un Modelo Oculto de Markov enfoque, es decir, Baum-Welch para la estimación de un modelo, después de Viterbi para predecir el estado actual basado en el último $N$ observaciones, luego de predecir el siguiente más probable estado basado en el estado actual y predecir la siguiente observación a través de la siguiente más probable estado y el HMM parámetros (o variantes como encontrar la distribución predictiva de la siguiente observación).

O puedo utilizar un enfoque mucho más simple, utilizando un apátrida modelo (que puede llegar a la entrada de la anterior $N$ observaciones), por ejemplo, SVM, la regresión lineal, splines, los árboles de regresión, más cercana a los vecinos, etc. Estos modelos se basan en la minimización de algún error de predicción sobre el conjunto de entrenamiento y, por lo tanto, conceptualmente, mucho más que un estado oculto basado en el modelo.

Alguien puede compartir su experiencia en el manejo de un modelización de la elección? Lo que hablaría a favor de los HMM y lo que en favor de un enfoque de regresión? Intuitivamente uno debe tomar el modelo más sencillo posible para evitar la sobre-ajuste; esto habla en favor de un apátrida enfoque...también Tenemos que considerar que ambos enfoques obtener los mismos datos de entrada para el entrenamiento (creo que esto implica que si no estamos de incorporar mayor conocimiento del dominio en el modelado de un estado oculto modelo, por ejemplo, corregir ciertos estados y las probabilidades de transición, no hay ninguna razón de por qué un estado oculto modelo debe realizar mejor). Al final uno puede, por supuesto, jugar con ambos enfoques y ver lo que funciona mejor en un conjunto de validación, pero algunas heurísticas basadas en la experiencia práctica también podría ser útil...

Nota: para mí es importante sólo para la predicción de ciertos eventos; prefiero un modelo que predice unos "interesante/raras" eventos así, en lugar de un modelo que predice la "media/frecuente de" eventos" , pero el interés no tan bien . Quizás esto tiene una implicación para la modelización de la elección. Gracias.

1voto

Eriatolc Puntos 31

En resumen, creo que están trabajando en diferentes paradigma de aprendizaje.

Modelo de espacio de estado (estado oculto modelo) y otros apátridas modelo mencionó usted va a descubrir que la relación subyacente de la serie de tiempo en las diferentes paradigma de aprendizaje: (1) la estimación de máxima verosimilitud, (2) de Bayes inferencia, (3) minimización del riesgo empírico.

En el modelo de espacio de estado,

Deje $x_t$ como el estado oculto, $y_t$ como las características observables, $t>0$ (asumiendo que no hay ningún control)

Usted asume la siguiente relación para el modelo:

$P(x_0)$ como antes

$P(x_t | x_{t-1})$ $t \geq 1$ como su cambio de estado (en HMM, es una matriz de transición)

$P(y_t | x_t)$ $t \geq 1$ cómo observar (en HMM, podría ser normal distribuciones condicionadas a $x_t$)

y $y_t$ sólo depende de $x_t$.

Cuando se utiliza Baum-Welch para la estimación de los parámetros, en realidad usted está buscando para una máxima probabilidad de la estimación de los HMM. Si utiliza el filtro de Kalman, que se está resolviendo un caso especial de filtro Bayesiano problema (que en realidad es una aplicación del teorema de Bayes en la actualización de paso):

Predicción de el paso:

$\displaystyle P(x_t|y_{1:t-1}) = \int P(x_t|x_{t-1})P(x_{t-1}|y_{1:t-1}) \, dx_{t-1}$

Actualización de paso:

$\displaystyle P(x_t|y_{1:t}) = \frac{P(y_t|x_t)P(x_t|y_{1:t-1})}{\int P(y_t|x_t)P(x_t|y_{1:t-1}) \, dx_t}$

En el filtro de Kalman, ya que se asume que el ruido de la estadística es Gaussiano y la relación de $P(x_t|x_{t-1})$ $P(y_t|x_t)$ son lineales. Por lo tanto, usted puede escribir $P(x_t|y_{1:t-1})$ $P(x_t|y_{1:t})$ simplemente como el $x_t$ (media + varianza es suficiente para la distribución normal) y el algoritmo funciona de la matriz de fórmulas.

Por otro lado, para otros apátridas modelo que usted ha mencionado, como SVM, splines, árboles de regresión, los vecinos más cercanos. Ellos están tratando de descubrir la relación subyacente de $(\{y_0,y_1,...,y_{t-1}\}, y_t)$ empírica minimización del riesgo.

Para la estimación de máxima verosimilitud, usted necesita para parametrizar la distribución de probabilidad subyacente primero (como HMM, usted tiene la matriz de transición, los observables se $(\mu_j,\sigma_j)$ algunos $j$)

Para la aplicación del teorema de Bayes, usted necesita tener "correcta" a priori $P(A)$ primero en el sentido de que $P(A) \neq 0$. Si $P(A)=0$, entonces la inferencia de resultados en $0$ desde $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$.

Para la minimización del riesgo empírico, universal consistencia está garantizado para cualquier distribución de probabilidad subyacente si el VC dimensión de la regla de aprendizaje no está creciendo tan rápido como el número de datos disponibles $n \to \infty$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X