Edit: Esta respuesta está basada en una suposición incorrecta de que la probabilidad de que el marginal dado cuenta $p_{x,y}$ es sólo una función de las probabilidades marginales $p_x = \sum_y p_{x,y}$$p_y = \sum_x p_{x,y}$. Todavía estoy pensando.
Mal las cosas de la siguiente manera:
Como se mencionó en un comentario, el problema con la búsqueda de "la" máxima verosimilitud estimador $p_{x, y}$ es que no es único. Por ejemplo, considere el caso con el binario $X, Y$ y marginales $S_1 = S_2 = T_1 = T_2 = 10$. Los dos estimadores
$$p = \left(\begin{array}{cc} \frac12 & 0 \\ 0 & \frac12\end{array}\right), \qquad p = \left(\begin{array}{cc} \frac14 & \frac14 \\ \frac14 & \frac14\end{array}\right)$$
tienen las mismas probabilidades marginales $p_x$ $p_y$ en todos los casos, y por lo tanto tienen iguales probabilidades (ambos de los cuales maximizar la probabilidad de la función, como se puede comprobar).
De hecho, no importa lo que los marginales son (siempre y cuando dos de ellos son distintos de cero en cada dimensión), el de máxima verosimilitud, la solución no es única. Voy a probar esto para el binario caso. Deje $p = \left(\begin{array}{cc}a & b \\ c & d\end{array}\right)$ ser una máxima probabilidad de la solución. Sin pérdida de generalidad supongamos $0 < a \le d$. A continuación, $p = \left(\begin{array}{cc}0 & b + a \\ c + a & d - a\end{array}\right)$ tiene el mismo marginales y por tanto es también una máxima probabilidad de la solución.
Si quieres , además, aplicar un máximo de entropía de restricción, entonces no obtener una solución única, que como F. Tussell declarado es la solución en la que $X, Y$ son independientes. Usted puede ver esto como sigue:
La entropía de la distribución es $H(p) = -\sum_{x,y} p_{x,y} \log p_{x,y}$; de maximizar sujeto a $\sum_x p_{x,y} = p_y$ $\sum_{y} p_{x,y} = p_x$ (equivalentemente, $\vec g(p) = 0$ donde$g_x(p) = \sum_y p_{x,y} - p_x$$g_y(p) = \sum_x p_{x,y} - p_y$) utilizando multiplicadores de Lagrange da la ecuación:
$$\nabla H(p) = \sum_{ k \in X \cup Y} \lambda_k \nabla g_k(p) $$
Todos los gradientes de cada una de las $g_k$ 1, para coordinar-sabias esto funciona a
$$1 - \log p_{x,y} = \lambda_x + \lambda_y \implies p_{x,y} = e^{1-\lambda_x-\lambda_y}$$
además de la original de las limitaciones de $\sum_x p_{x,y} = p_y$$\sum_{y} p_{x,y} = p_x$. Usted puede verificar que esto es satisfecho al$e^{1/2 - \lambda_x} = p_x$$e^{1/2 - \lambda_y} = p_y$, dando $$p_{x,y} = p_xp_y.$$