56 votos

Estimadores de máxima verosimilitud - Gaussianos multivariantes

Contexto

La gaussiana multivariante aparece con frecuencia en el aprendizaje automático y los siguientes resultados se utilizan en muchos libros y cursos de ML sin las derivaciones.

Datos dados en forma de matriz XX de las dimensiones m×pm×p si suponemos que los datos siguen una pp -variante gaussiana con parámetros media μμ ( p×1p×1 ) y matriz de covarianza ΣΣ ( p×pp×p ) el Máxima verosimilitud Estimadores están dadas por:

  • ˆμ=1mmi=1x(i)=ˉx
  • ˆΣ=1mmi=1(x(i)ˆμ)(x(i)ˆμ)T

Entiendo que el conocimiento de la gaussiana multivariante es un requisito previo para muchos cursos de ML, pero sería útil tener la derivación completa en una respuesta autocontenida de una vez por todas, ya que creo que muchos autodidactas están rebotando por los sitios web stats.stackexchange y math.stackexchange en busca de respuestas.


Pregunta

¿Cuál es la derivación completa de los estimadores de máxima verosimilitud para la gaussiana multivariante


Ejemplos:

Estos notas de clase (página 11) sobre el Análisis Discriminante Lineal, o estos hacer uso de los resultados y asumir los conocimientos previos.

También hay algunos puestos que están parcialmente contestados o cerrados:

67voto

Matryoshka Puntos 53

Derivación de los estimadores de máxima verosimilitud

Supongamos que tenemos m vectores aleatorios, cada uno de ellos de tamaño p : X(1),X(2),,X(m) donde cada vector aleatorio puede interpretarse como una observación (punto de datos) a través de p variables. Si cada X(i) son i.i.d. como vectores gaussianos multivariantes:

X(i)Np(μ,Σ)

Cuando los parámetros μ,Σ son desconocidos. Para obtener su estimación podemos utilizar el método de máxima verosimilitud y maximizar la función logarítmica de verosimilitud.

Nótese que por la independencia de los vectores aleatorios, la densidad conjunta de los datos {X(i),i=1,2,,m} es el producto de las densidades individuales, es decir mi=1fX(i)(x(i);μ,Σ) . Tomando el logaritmo se obtiene la función de probabilidad logarítmica

l(μ,Σ|x(i))=logmi=1fX(i)(x(i)|μ,Σ)=log mi=11(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=mi=1(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12mi=1(x(i)μ)TΣ1(x(i)μ)

Derivación de ˆμ

Para tomar la derivada con respecto a μ e igualar a cero haremos uso de la siguiente identidad de cálculo matricial:

wTAww=2Aw si w no depende de A y A es simétrica.

μl(μ,Σ|x(i))=mi=1Σ1(x(i)μ)=0Since Σ is positive definite0=mμmi=1x(i)ˆμ=1mmi=1x(i)=ˉx

Lo que a menudo se llama el media de la muestra vectorial.

Derivación de ˆΣ

Derivar la MLE para la matriz de covarianza requiere más trabajo y el uso de las siguientes propiedades de álgebra lineal y cálculo:

  • La traza es invariante bajo permutaciones cíclicas de productos matriciales: tr[ABC]=tr[CAB]=tr[BCA]
  • Desde xTAx es escalar, podemos tomar su traza y obtener el mismo valor: xTAx=tr[xTAx]=tr[xxTA]
  • Atr[AB]=BT
  • Alog|A|=(A1)T=(AT)1
  • El determinante de la inversa de una matriz invertible es la inversa del determinante: |A|=1|A1|

La combinación de estas propiedades nos permite calcular

AxTAx=Atr[xxTA]=[xxT]T=(xT)TxT=xxT

Que es el producto exterior del vector x con ella misma.

Ahora podemos reescribir la función de probabilidad logarítmica y calcular la derivada con respecto a ella. Σ1 (nota C es constante)

l(μ,Σ|x(i))=Cm2log|Σ|12mi=1(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12mi=1tr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12mi=1(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Igualando a cero y resolviendo para Σ

0=mΣmi=1(x(i)μ)(x(i)μ)TˆΣ=1mmi=1(x(i)ˆμ)(x(i)ˆμ)T

Fuentes

14voto

Tomas Puntos 8

Una prueba alternativa para ˆΣ que toma la derivada con respecto a Σ directamente:

Recogiendo con el log-likelihood como arriba: (μ,Σ)=Cm2log|Σ|12mi=1tr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+mi=1tr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1]) donde Sμ=mi=1(x(i)μ)(x(i)μ)T y hemos utilizado las propiedades cíclicas y lineales de tr . Para calcular /Σ primero observamos que Σlog|Σ|=ΣT=Σ1 por la cuarta propiedad anterior. Para tomar la derivada del segundo término necesitaremos la propiedad de que Xtr(AX1B)=(X1BAX1)T. (de El libro de cocina de Matrix (ecuación 63). Aplicando esto con B=I obtenemos que Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1 porque ambos Σ y Sμ son simétricos. Entonces Σ(μ,Σ)mΣ1Σ1SμΣ1. Si se pone a 0 y se reordena, se obtiene ˆΣ=1mSμ.

Este enfoque da más trabajo que el estándar que utiliza las derivadas con respecto a Λ=Σ1 y requiere una identidad de rastreo más complicada. Sólo lo encontré útil porque actualmente necesito tomar derivadas de una función de probabilidad modificada para la que parece mucho más difícil de usar /Σ1 que /Σ .

1voto

DizoAZ Puntos 26

Aunque las respuestas anteriores son correctas, mencionar el rastro es innecesario (desde un punto de vista personal).

La siguiente derivación podría ser más sucinta:

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X