Lo que está oculto y lo que se observa
Lo que está oculto en un modelo oculto de Markov es la misma que la cosa que se oculta en un discreto modelo de mezcla, por lo que para mayor claridad, se olvida sobre el estado oculto de la dinámica y el palo con un determinado modelo de mezcla como un ejemplo. El 'estado' en este modelo es la identidad del componente que ha provocado cada observación. En esta clase de modelo de tales causas son nunca observado, lo 'oculto causa' es traducido estadísticamente en la afirmación de que los datos observados marginal dependencias, las cuales se eliminan cuando el componente de origen es conocido. Y el origen de los componentes se estima que para ser lo que hace que esta relación estadística verdadero.
Lo que está oculto en un feedforward de múltiples capas de la red neuronal con sigmoide medio de unidades es el de los estados de las unidades, no las salidas que son el objetivo de la inferencia. Cuando la salida de la red es una clasificación, es decir, una distribución de probabilidad sobre la posible salida de categorías, estas unidades ocultos valores de definir un espacio en el que las categorías son separables. El truco en el aprendizaje de un modelo de este tipo es hacer un espacio oculto (mediante el ajuste de la asignación de las unidades de entrada) dentro del cual el problema es lineal. En consecuencia, no-lineal de la decisión límites son posibles a partir del sistema como un todo.
Generativo frente a la discriminación
El modelo de mezcla (y HMM) es un modelo de los datos de proceso de generación, a veces llamado una probabilidad o 'modelo hacia adelante'. Cuando se combina con algunas suposiciones acerca de las probabilidades previas de cada estado se puede inferir una distribución de posibles valores de un estado oculto usando el teorema de Bayes (un enfoque generativo). Tenga en cuenta que, mientras que se llama un 'antes', tanto de la previa y los parámetros de la probabilidad son generalmente aprendidas a partir de los datos.
En contraste con el modelo de mezcla (y HMM) de la red neuronal aprende una posterior distribución a través de la salida de las categorías directamente (discriminativo). Esto es posible debido a que los valores de salida se observaron durante la estimación. Y ya que se observaron, no es necesaria la construcción de una distribución posterior de un antes y un modelo específico para la probabilidad como una mezcla. La parte posterior es aprendido directamente de los datos, que es más eficiente y menos dependiente del modelo.
Mezclar y combinar
Para hacer las cosas más confusas, estos enfoques pueden ser mezclados, por ejemplo, cuando el modelo de mezcla (o HMM) el estado es a veces realmente observada. Cuando lo que es verdadero, y en algunas otras circunstancias que no es pertinente aquí, es posible entrenar a discriminatively en un modelo generativo. Del mismo modo es posible sustituir el modelo de mezcla de la asignación de un HMM con una más flexible adelante modelo, por ejemplo, de una red neuronal.
Las preguntas
Así que no es del todo cierto que ambos modelos predicen estado oculto. Hmm puede ser utilizado para predecir el estado oculto, aunque solo de la especie de que el modelo hacia adelante se espera. Las redes neuronales pueden ser utilizados para predecir un no se han observado, en el estado, por ejemplo, los estados futuros de los predictores que están disponibles. Este tipo de estado no está escondido en principio, simplemente no se ha observado todavía.
Cuándo se debe utilizar uno en vez de otro? Así, las redes neuronales hacer algo torpe modelos de serie de tiempo en mi experiencia. También se supone que se han observado de salida. Hmm no, pero usted realmente no tiene ningún control de lo que el estado oculto en realidad es. No obstante que son propias de los modelos de serie de tiempo.