Edit: Esta respuesta está basada en una suposición incorrecta de que la probabilidad de que el marginal dado cuenta px,y es sólo una función de las probabilidades marginales px=∑ypx,ypy=∑xpx,y. Todavía estoy pensando.
Mal las cosas de la siguiente manera:
Como se mencionó en un comentario, el problema con la búsqueda de "la" máxima verosimilitud estimador px,y es que no es único. Por ejemplo, considere el caso con el binario X,Y y marginales S1=S2=T1=T2=10. Los dos estimadores
p=(120012),p=(14141414)
tienen las mismas probabilidades marginales px py en todos los casos, y por lo tanto tienen iguales probabilidades (ambos de los cuales maximizar la probabilidad de la función, como se puede comprobar).
De hecho, no importa lo que los marginales son (siempre y cuando dos de ellos son distintos de cero en cada dimensión), el de máxima verosimilitud, la solución no es única. Voy a probar esto para el binario caso. Deje p=(abcd) ser una máxima probabilidad de la solución. Sin pérdida de generalidad supongamos 0<a≤d. A continuación, p=(0b+ac+ad−a) tiene el mismo marginales y por tanto es también una máxima probabilidad de la solución.
Si quieres , además, aplicar un máximo de entropía de restricción, entonces no obtener una solución única, que como F. Tussell declarado es la solución en la que X,Y son independientes. Usted puede ver esto como sigue:
La entropía de la distribución es H(p)=−∑x,ypx,ylogpx,y; de maximizar sujeto a ∑xpx,y=py ∑ypx,y=px (equivalentemente, →g(p)=0 dondegx(p)=∑ypx,y−pxgy(p)=∑xpx,y−py) utilizando multiplicadores de Lagrange da la ecuación:
∇H(p)=∑k∈X∪Yλk∇gk(p)
Todos los gradientes de cada una de las gk 1, para coordinar-sabias esto funciona a
1−logpx,y=λx+λy⟹px,y=e1−λx−λy
además de la original de las limitaciones de ∑xpx,y=py∑ypx,y=px. Usted puede verificar que esto es satisfecho ale1/2−λx=pxe1/2−λy=py, dando px,y=pxpy.