23 votos

Interpretación natural de los hiperparámetros del LDA

¿Puede alguien explicar cuál es la interpretación natural de los hiperparámetros del LDA? ALPHA y BETA son los parámetros de las distribuciones Dirichlet para las distribuciones de temas (por documento) y de palabras (por tema) respectivamente. Sin embargo, ¿puede alguien explicar qué significa elegir valores mayores de estos hiperparámetros frente a valores menores? ¿Significa eso poner alguna creencia previa en términos de dispersión de temas en los documentos y exclusividad mutua de los temas en términos de palabras?

Esta pregunta se refiere a la asignación latente de Dirichlet, pero el comentario de BGReene que aparece inmediatamente después se refiere al análisis lineal discriminante, que confusamente también se abrevia como LDA.

54voto

Decker Puntos 3497

La respuesta depende de si se asume la distribución dirichlet simétrica o asimétrica (o, más técnicamente, si la medida base es uniforme). A menos que se especifique otra cosa, la mayoría de las implementaciones de LDA asumen que la distribución es simétrica.

En el caso de la distribución simétrica, un valor alfa alto significa que es probable que cada documento contenga una mezcla de más de los temas, y no de un solo tema en concreto. Un valor alfa bajo impone menos restricciones a los documentos y significa que es más probable que un documento pueda contener una mezcla de unos pocos temas, o incluso uno solo. Del mismo modo, un valor beta alto significa que es probable que cada tema contenga una mezcla de la mayoría de las palabras, y no una palabra en concreto, mientras que un valor bajo significa que un tema puede contener una mezcla de sólo unas pocas palabras.

Si, por el contrario, la distribución es asimétrica, un valor alfa alto significa que una distribución temática específica (dependiendo de la medida base) es más probable para cada documento. Del mismo modo, un valor beta alto significa que es más probable que cada tema contenga una mezcla de palabras específica definida por la medida base.

En la práctica, un valor alfa alto hará que los documentos sean más similares en cuanto a los temas que contienen. Un valor beta alto hará que los temas sean más similares en cuanto a las palabras que contienen.

Así que, sí, los parámetros alfa especifican las creencias previas sobre la dispersión/uniformidad de los temas en los documentos. Sin embargo, no estoy del todo seguro de lo que quiere decir con "exclusividad mutua de los temas en términos de palabras".


En general, se trata de parámetros de concentración para la distribución dirichlet utilizada en el modelo LDA. Para obtener una comprensión intuitiva de cómo funciona esto, esta presentación contiene algunas buenas ilustraciones, así como una buena explicación del LDA en general.


Un comentario adicional que pondré aquí, ya que no puedo comentar tu pregunta original: Por lo que he visto, los parámetros alfa y beta pueden referirse de forma algo confusa a varias parametrizaciones diferentes. La distribución dirichlet subyacente suele parametrizarse con el vector $(\alpha_1, \alpha_2, ... ,\alpha_K)$ pero se puede descomponer en la medida base $u = (u_1, u_2, ..., u_K)$ y el parámetro de concentración $\alpha$ , de tal manera que $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ . En el caso de que el parámetro alfa sea un escalar, suele significar el parámetro de concentración $\alpha$ pero también puede significar los valores de $(\alpha_1, \alpha_2, ... ,\alpha_K)$ ya que estos serán iguales bajo la distribución dirichlet simétrica. Si es un vector, suele referirse a $(\alpha_1, \alpha_2, ... ,\alpha_K)$ . No estoy seguro de cuál es la parametrización más común, pero en mi respuesta asumo que te referías a los valores alfa y beta como parámetros de concentración.

12voto

Karsten Puntos 201

David Blei tiene una gran charla de presentación de LDA a los estudiantes de una clase de verano: http://videolectures.net/mlss09uk_blei_tm/

En el primer vídeo cubre ampliamente la idea básica de la modelización de temas y cómo entra en juego la distribución Dirichlet. La notación de la placa se explica como si se observaran todas las variables ocultas para mostrar las dependencias. Básicamente, los temas son distribuciones sobre palabras y las distribuciones de documentos sobre temas.

En el segundo vídeo nte el efecto de alfa con algunos gráficos de muestra. Cuanto menor sea alfa, más dispersa será la distribución. Además, presenta algunos enfoques de inferencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X