46 votos

¿Cuáles son las diferencias entre modelos ocultos de Markov y redes neuronales?

Yo estoy haciendo mis pies mojados en las estadísticas así lo siento si esta pregunta no tiene sentido. He utilizado los modelos de Markov para predecir estados ocultos (injusta casinos, tiradas de dados, etc.) y las redes neuronales para el estudio de los usuarios hace clic en un motor de búsqueda. Ambos habían escondido los estados que estábamos tratando de averiguar el uso de observaciones.

A mi entender, ambos predecir estados ocultos, por lo que me pregunto cuando iba a utilizar los modelos de Markov sobre las redes neuronales? Son enfoques diferentes a problemas similares?

(Estoy interesado en el aprendizaje, pero también tengo otra motivación, tengo un problema que estoy tratando de resolver mediante modelos ocultos de Markov, pero su conducción me loco así que yo estaba interesado en ver si puedo cambiar a otra cosa.)

36voto

James Sutherland Puntos 2033

Lo que está oculto y lo que se observa

Lo que está oculto en un modelo oculto de Markov es la misma que la cosa que se oculta en un discreto modelo de mezcla, por lo que para mayor claridad, se olvida sobre el estado oculto de la dinámica y el palo con un determinado modelo de mezcla como un ejemplo. El 'estado' en este modelo es la identidad del componente que ha provocado cada observación. En esta clase de modelo de tales causas son nunca observado, lo 'oculto causa' es traducido estadísticamente en la afirmación de que los datos observados marginal dependencias, las cuales se eliminan cuando el componente de origen es conocido. Y el origen de los componentes se estima que para ser lo que hace que esta relación estadística verdadero.

Lo que está oculto en un feedforward de múltiples capas de la red neuronal con sigmoide medio de unidades es el de los estados de las unidades, no las salidas que son el objetivo de la inferencia. Cuando la salida de la red es una clasificación, es decir, una distribución de probabilidad sobre la posible salida de categorías, estas unidades ocultos valores de definir un espacio en el que las categorías son separables. El truco en el aprendizaje de un modelo de este tipo es hacer un espacio oculto (mediante el ajuste de la asignación de las unidades de entrada) dentro del cual el problema es lineal. En consecuencia, no-lineal de la decisión límites son posibles a partir del sistema como un todo.

Generativo frente a la discriminación

El modelo de mezcla (y HMM) es un modelo de los datos de proceso de generación, a veces llamado una probabilidad o 'modelo hacia adelante'. Cuando se combina con algunas suposiciones acerca de las probabilidades previas de cada estado se puede inferir una distribución de posibles valores de un estado oculto usando el teorema de Bayes (un enfoque generativo). Tenga en cuenta que, mientras que se llama un 'antes', tanto de la previa y los parámetros de la probabilidad son generalmente aprendidas a partir de los datos.

En contraste con el modelo de mezcla (y HMM) de la red neuronal aprende una posterior distribución a través de la salida de las categorías directamente (discriminativo). Esto es posible debido a que los valores de salida se observaron durante la estimación. Y ya que se observaron, no es necesaria la construcción de una distribución posterior de un antes y un modelo específico para la probabilidad como una mezcla. La parte posterior es aprendido directamente de los datos, que es más eficiente y menos dependiente del modelo.

Mezclar y combinar

Para hacer las cosas más confusas, estos enfoques pueden ser mezclados, por ejemplo, cuando el modelo de mezcla (o HMM) el estado es a veces realmente observada. Cuando lo que es verdadero, y en algunas otras circunstancias que no es pertinente aquí, es posible entrenar a discriminatively en un modelo generativo. Del mismo modo es posible sustituir el modelo de mezcla de la asignación de un HMM con una más flexible adelante modelo, por ejemplo, de una red neuronal.

Las preguntas

Así que no es del todo cierto que ambos modelos predicen estado oculto. Hmm puede ser utilizado para predecir el estado oculto, aunque solo de la especie de que el modelo hacia adelante se espera. Las redes neuronales pueden ser utilizados para predecir un no se han observado, en el estado, por ejemplo, los estados futuros de los predictores que están disponibles. Este tipo de estado no está escondido en principio, simplemente no se ha observado todavía.

Cuándo se debe utilizar uno en vez de otro? Así, las redes neuronales hacer algo torpe modelos de serie de tiempo en mi experiencia. También se supone que se han observado de salida. Hmm no, pero usted realmente no tiene ningún control de lo que el estado oculto en realidad es. No obstante que son propias de los modelos de serie de tiempo.

10voto

ctcherry Puntos 15112

Modelos ocultos de Markov puede ser utilizado para generar un lenguaje, es decir, la lista de elementos de una familia de cadenas. Por ejemplo, si usted tiene un HMM que los modelos de un conjunto de secuencias, usted será capaz de generar los miembros de esta familia, mediante la lista de secuencias que sería caer en el grupo de secuencias que se están modelando.

Las Redes neuronales, tomar una entrada de un espacio de alta dimensión y simplemente el mapa a un menor espacio tridimensional (la manera en que las Redes Neuronales mapa esta entrada se basa en la formación, su topología y otros factores). Por ejemplo, usted podría tomar una imagen de 64 bits de un número y asignarla a un valor true / false que describe si este número es 1 o 0.

Mientras que ambos métodos son capaces de (o al menos lo intenta) discriminar si un elemento es un miembro de una clase o no, las Redes Neuronales no se puede generar un lenguaje como se describió anteriormente.

Existen alternativas a los Modelos Ocultos de Markov disponibles, por ejemplo, usted podría ser capaz de utilizar una forma más general de la Red Bayesiana, un diferente topología o Estocástico Gramática independiente del Contexto (SCFG) si usted cree que el problema se encuentra en el Hmm falta de poder para modelar el problema - que es, si usted necesita un algoritmo que es capaz de discriminar entre más complejo de hipótesis y/o describir el comportamiento de los datos que es mucho más complejo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X