5 votos

Distribución de frecuencias *condicionales* cuando las frecuencias siguen una distribución de Dirichlet

Contexto: tenemos un gran número de individuos caracterizados por dos rasgos binarios; llamémoslos $T$ con valores $\{0,1\}$, y $T'$ con valores $\{0',1'\}$. Por lo tanto, hay cuatro tipos de individuos: $00'$, $01'$, $10'$, $11'$, que aparecen en la población con frecuencias relativas desconocidas $f_{00'}$, $f_{01'}$, $f_{10'}$, $f_{11'}$ que suman uno.

Supongamos que nuestro grado de creencia sobre estas frecuencias (asumido continuo) se expresa por una distribución de Dirichlet con parámetros $(Aa_{00'}, Aa_{01'}, Aa_{10'}, Aa_{11'})$, donde los $a$ suman uno: $$\mathrm{p}[f_{00'}, f_{01'}, f_{10'}, f_{11'} \mid A, (a_{00'}, a_{01'}, a_{10'}, a_{11'})] \propto \prod_{i=0}^1\prod_{j'=0'}^{1'} f_{ij'}^{A a_{ij'}-1}\;\delta\bigl({\textstyle\sum_{ij'}}f_{ij'}-1\bigr).$$

También podemos considerar las frecuencias marginales de individuos que tienen el rasgo $T'$ solamente, por ejemplo: $f_{0'} \equiv f_{00'} + f_{10'}$ y $f_{1'} \equiv f_{01'} + f_{11'}$. Debido a la propiedad de "agregación" de la distribución de Dirichlet (Kotz y col. 2000, también Basu y col. 1982), estas frecuencias marginales también tienen una distribución de Dirichlet con parámetros $\bigl(A(a_{00'} + a_{10'}), A(a_{01'} + a_{11'})\bigr)$ (una distribución Beta).

Pregunta: Consideremos ahora las frecuencias condicionales del rasgo $T$ dado $T'$, por ejemplo $$f_{1\mid 0'} \equiv \frac{f_{10'}}{f_{00'}+f_{10'}}.$$ ¿Qué distribución expresa nuestro grado de creencia acerca de tal frecuencia condicional, dado el contexto anterior?

Mientras me siento a calcular (o muestrear), agradecería cualquier referencia bibliográfica o pista de cálculo sobre esto. ¡Gracias!

Motivación adicional: Para inferir sobre datos secuenciales, como por ejemplo texto, habla, genes, algunas referencias expresan el grado de creencia sobre las frecuencias condicionales $f_{i\mid j}$ (de, digamos, una palabra dada la anterior) con una distribución Dirichlet (por ejemplo MacKay y col. 1995): $$\mathrm{p}[f_{i \mid j} \mid A, (a_{i\mid j})] \propto \prod_{i} f_{i\mid j}^{A a_{i\mid j}-1}\;\delta\bigl({\textstyle\sum_{i}}f_{i\mid j}-1\bigr), \qquad\text{for every }j.$$ Este enfoque es diferente al uso de una distribución de Dirichlet para las frecuencias conjuntas $f_{ij}$, y me pregunto qué tan diferente es la distribución para las frecuencias condicionales que obtenemos al asumir Dirichlet para las frecuencias conjuntas en lugar de las condicionales, como en mi pregunta anterior.

Referencias:

– Basu, de Bragança Pereira: On the Bayesian analysis of categorical data: the problem of nonresponse (1982) https://doi.org/10.1016/0378-3758(82)90004-0, §§ 3–4.

– Kotz, Balakrishnan, Johnson: Continuous Multivariate Distributions. Vol. 1 (2nd ed. Wiley 2000), §49.1.

– MacKay, Peto: A hierarchical Dirichlet language model (1995) https://doi.org/10.1017/S1351324900000218, https://pdfs.semanticscholar.org/01fa/57bd91f731522c861404d29e4604ba6ac6d3.pdf.

3voto

grifaton Puntos 1686

Editar: (Decidí no borrar esta respuesta, ya que contiene una prueba de la propiedad distributiva de la Distribución de Dirichlet. Sin embargo, ahora he logrado responder al post original, que he colocado en una respuesta separada)

Generalmente pienso en estos problemas usando el teorema fundamental del cálculo. Creas una nueva variable (llamémosla a), escribes una integral para la probabilidad de que $a, $P(a, diferencias con respecto a A (esto generalmente usa el teorema fundamental del cálculo, o en casos más complejos, la regla de Leibniz para diferenciar bajo el signo integral, una generalización de lo anterior), y el resultado te da la fdp para a evaluada en A, o $p(A)$. Veamos cómo funciona esto, para derivar una expresión para $a=q_{1}+q_{2}$, o lo que mencionas como la propiedad asociativa de la Distribución de Dirichlet.

$P(a

Escribiendo esto como $\int_{0}^{A}f(A,q_{1})dq_{1}$ y diferenciando, se obtiene:

$f(A,A) + \int_{0}^{A}\frac{\partial}{\partial A}f(A,q_{1})dq_{1}$

Porque

$f(A,q_{1})=\int_{0}^{A-q_{1}}dq_{2}\int_{0}^{1-q_{1}-q_{2}}dq_{3}D(q_{1},q_{2},q_{3}, 1-q_{1}-q_{2}-q_{3})$

podemos ver que $f(A,A)=0$, así que solo tenemos que preocuparnos por

$\int_{0}^{A}dq_{1}\frac{\partial}{\partial A}\int_{0}^{A-q_{1}}dq_{2}\int_{0}^{1-q_{1}-q_{2}}dq_{3}D(q_{1},q_{2},q_{3}, 1-q_{1}-q_{2}-q_{3})$

que es un caso relativamente simple del teorema fundamental del cálculo, básicamente reemplazar todas las instancias de $q_{2}$ con $(A-q_{1})$

$\int_{0}^{A}dq_{1}\int_{0}^{1-q_{1}-(A-q_{1})}dq_{3}D(q_{1}, a-q_{1}, q_{3}, 1 - q_{1} - (A-q_{1})-q_{3};\alpha)$

que, explícitamente ahora sustituyendo la forma de función de la Distribución de Dirichlet, está dada por

$\frac{1}{B(\alpha)}\int_{0}^{A}dq_{1}q_{1}^{\alpha_{1}-1}(A-q_{1})^{\alpha_{2}-1}\int_{0}^{1-A}dq_{3}q_{3}^{\alpha_{3}-1}(1-A -q_{3})^{\alpha_{4}-1}$

Esto es ahora un producto de integrales en lugar de una doble integral. La primera se resuelve con la sustitución $v=\frac{q_{1}}{A}$ y la segunda con $u=\frac{q_{3}}{1-A}$. La primera da $A^{\alpha_{1}+\alpha_{2}-1}B(\alpha_{1}, \alpha_{2})$ y la segunda da $(1-A)^{\alpha_{3}+\alpha_{4}-1}B(\alpha_{3},\alpha_{4})$

Juntando esto con la constante de normalización original, obtienes el resultado deseado.

Sin embargo para $a=\frac{q_{1}}{q_{1}+q_{2}}$, me encontré con un obstáculo que podría resultar muy difícil de resolver y significar que esto no tiene una solución en forma cerrada, o tal vez solo que este método no funciona. El punto de fricción es que para definir la región en el espacio 2D de modo que $0< \frac{q_{1}}{q_{1}+q_{2}}<1$, en realidad es bastante difícil. Por ejemplo, si $q_{1}=1$ y $A=\frac{1}{4}$, ningún $q_{2}$ (permitido) puede satisfacer $\frac{1}{1+q_{2}}<\frac{1}{4}$.

De hecho, si $A>\frac{1}{2}$, esto siempre es posible pero si $A<\frac{1}{2}$, entonces se necesita que $q_{1}<\frac{A}{1-A}$. Pero la condición $q_{1}<\frac{A}{1-A}$ no es suficiente, porque cuando $A>\frac{1}{2}$, esta restricción es muy débil, $q_{1}$ necesita ser más pequeño que un número que es mayor que 1, por lo que en realidad la restricción es $q_{1}, y esto no se puede diferenciar, así que no veo cómo diferenciar bajo el signo integral.

3voto

Andre Miller Puntos 182

Dejar $\gamma_{ij} \sim \texttt{gamma}(A a_{ij})$ de forma independiente. Recordemos que la construcción de la distribución de Dirichlet es una normalización de variables aleatorias gamma. Entonces, la distribución de Dirichlet con la que comenzamos es igual en distribución a $$ \left(\frac{\gamma_{00}}{\sum \gamma_{ij}}, \ldots, \frac{\gamma_{11}}{\sum \gamma_{ij}}\right) \sim \texttt{dirichlet}(A a_{00}, \ldots, Aa_{11}). $$ Pero ahora tenemos, por ejemplo, $$ f_{1 | 0} = \frac{f_{10}}{f_{00} + f_{10}} \stackrel{d}{=} \frac{\gamma_{10}}{\gamma_{00} + \gamma_{10}}. $$ Y podemos obtener una expresión similar para $f_{0|0} = \gamma_{00}/(\gamma_{00} + \gamma_{10})$, de donde se sigue que $$ (f_{0|0}, f_{1|0}) \sim \texttt{dirichlet}(A a_{00}, A a_{10}). $$ Fácil.

Para responder a tu pregunta sobre cómo varía el modelo condicional respecto al modelo conjunto: si especificas priors de Dirichlet en las condicionales del primer componente dado el segundo, y un prior muy particular de Dirichlet en los marginales del segundo, entonces obtienes un prior de Dirichlet para el conjunto. De esta manera, obtienes un poco más de flexibilidad al usar priors de Dirichlet en los marginales y condicionales por separado; el tipo más general de prior que obtienes de esta manera es un caso especial de lo que se ha llamado un hiper-Dirichlet, o prior de árbol de Dirichlet. El hiper-Dirichlet también es conjugado al muestreo multinomial; además del Dirichlet, también contiene todas las construcciones de quiebre de palos que puedes obtener de la distribución Beta, y muchas otras posibilidades también.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X