Contexto: tenemos un gran número de individuos caracterizados por dos rasgos binarios; llamémoslos $T$ con valores $\{0,1\}$, y $T'$ con valores $\{0',1'\}$. Por lo tanto, hay cuatro tipos de individuos: $00'$, $01'$, $10'$, $11'$, que aparecen en la población con frecuencias relativas desconocidas $f_{00'}$, $f_{01'}$, $f_{10'}$, $f_{11'}$ que suman uno.
Supongamos que nuestro grado de creencia sobre estas frecuencias (asumido continuo) se expresa por una distribución de Dirichlet con parámetros $(Aa_{00'}, Aa_{01'}, Aa_{10'}, Aa_{11'})$, donde los $a$ suman uno: $$\mathrm{p}[f_{00'}, f_{01'}, f_{10'}, f_{11'} \mid A, (a_{00'}, a_{01'}, a_{10'}, a_{11'})] \propto \prod_{i=0}^1\prod_{j'=0'}^{1'} f_{ij'}^{A a_{ij'}-1}\;\delta\bigl({\textstyle\sum_{ij'}}f_{ij'}-1\bigr).$$
También podemos considerar las frecuencias marginales de individuos que tienen el rasgo $T'$ solamente, por ejemplo: $f_{0'} \equiv f_{00'} + f_{10'}$ y $f_{1'} \equiv f_{01'} + f_{11'}$. Debido a la propiedad de "agregación" de la distribución de Dirichlet (Kotz y col. 2000, también Basu y col. 1982), estas frecuencias marginales también tienen una distribución de Dirichlet con parámetros $\bigl(A(a_{00'} + a_{10'}), A(a_{01'} + a_{11'})\bigr)$ (una distribución Beta).
Pregunta: Consideremos ahora las frecuencias condicionales del rasgo $T$ dado $T'$, por ejemplo $$f_{1\mid 0'} \equiv \frac{f_{10'}}{f_{00'}+f_{10'}}.$$ ¿Qué distribución expresa nuestro grado de creencia acerca de tal frecuencia condicional, dado el contexto anterior?
Mientras me siento a calcular (o muestrear), agradecería cualquier referencia bibliográfica o pista de cálculo sobre esto. ¡Gracias!
Motivación adicional: Para inferir sobre datos secuenciales, como por ejemplo texto, habla, genes, algunas referencias expresan el grado de creencia sobre las frecuencias condicionales $f_{i\mid j}$ (de, digamos, una palabra dada la anterior) con una distribución Dirichlet (por ejemplo MacKay y col. 1995): $$\mathrm{p}[f_{i \mid j} \mid A, (a_{i\mid j})] \propto \prod_{i} f_{i\mid j}^{A a_{i\mid j}-1}\;\delta\bigl({\textstyle\sum_{i}}f_{i\mid j}-1\bigr), \qquad\text{for every }j.$$ Este enfoque es diferente al uso de una distribución de Dirichlet para las frecuencias conjuntas $f_{ij}$, y me pregunto qué tan diferente es la distribución para las frecuencias condicionales que obtenemos al asumir Dirichlet para las frecuencias conjuntas en lugar de las condicionales, como en mi pregunta anterior.
Referencias:
– Basu, de Bragança Pereira: On the Bayesian analysis of categorical data: the problem of nonresponse (1982) https://doi.org/10.1016/0378-3758(82)90004-0, §§ 3–4.
– Kotz, Balakrishnan, Johnson: Continuous Multivariate Distributions. Vol. 1 (2nd ed. Wiley 2000), §49.1.
– MacKay, Peto: A hierarchical Dirichlet language model (1995) https://doi.org/10.1017/S1351324900000218, https://pdfs.semanticscholar.org/01fa/57bd91f731522c861404d29e4604ba6ac6d3.pdf.