La respuesta depende de si se asume la distribución dirichlet simétrica o asimétrica (o, más técnicamente, si la medida base es uniforme). A menos que se especifique otra cosa, la mayoría de las implementaciones de LDA asumen que la distribución es simétrica.
En el caso de la distribución simétrica, un valor alfa alto significa que es probable que cada documento contenga una mezcla de más de los temas, y no de un solo tema en concreto. Un valor alfa bajo impone menos restricciones a los documentos y significa que es más probable que un documento pueda contener una mezcla de unos pocos temas, o incluso uno solo. Del mismo modo, un valor beta alto significa que es probable que cada tema contenga una mezcla de la mayoría de las palabras, y no una palabra en concreto, mientras que un valor bajo significa que un tema puede contener una mezcla de sólo unas pocas palabras.
Si, por el contrario, la distribución es asimétrica, un valor alfa alto significa que una distribución temática específica (dependiendo de la medida base) es más probable para cada documento. Del mismo modo, un valor beta alto significa que es más probable que cada tema contenga una mezcla de palabras específica definida por la medida base.
En la práctica, un valor alfa alto hará que los documentos sean más similares en cuanto a los temas que contienen. Un valor beta alto hará que los temas sean más similares en cuanto a las palabras que contienen.
Así que, sí, los parámetros alfa especifican las creencias previas sobre la dispersión/uniformidad de los temas en los documentos. Sin embargo, no estoy del todo seguro de lo que quiere decir con "exclusividad mutua de los temas en términos de palabras".
En general, se trata de parámetros de concentración para la distribución dirichlet utilizada en el modelo LDA. Para obtener una comprensión intuitiva de cómo funciona esto, esta presentación contiene algunas buenas ilustraciones, así como una buena explicación del LDA en general.
Un comentario adicional que pondré aquí, ya que no puedo comentar tu pregunta original: Por lo que he visto, los parámetros alfa y beta pueden referirse de forma algo confusa a varias parametrizaciones diferentes. La distribución dirichlet subyacente suele parametrizarse con el vector $(\alpha_1, \alpha_2, ... ,\alpha_K)$ pero se puede descomponer en la medida base $u = (u_1, u_2, ..., u_K)$ y el parámetro de concentración $\alpha$ , de tal manera que $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ . En el caso de que el parámetro alfa sea un escalar, suele significar el parámetro de concentración $\alpha$ pero también puede significar los valores de $(\alpha_1, \alpha_2, ... ,\alpha_K)$ ya que estos serán iguales bajo la distribución dirichlet simétrica. Si es un vector, suele referirse a $(\alpha_1, \alpha_2, ... ,\alpha_K)$ . No estoy seguro de cuál es la parametrización más común, pero en mi respuesta asumo que te referías a los valores alfa y beta como parámetros de concentración.