2 votos

Validez de la medida de distancia Log-likelihood para la agrupación

He calculado las distancias de probabilidad logarítmica entre 50 secuencias según la fórmula (1):

$$ D(X_i,X_j)= 1/2(\log p(X_i|Mod_j)+\log p(X_j|Mod_i)), $$ donde $ p(X_i|Mod_j) $ es la probabilidad de la secuencia $X_i$ producidos por el modelo $Mod_j$ , donde $Mod_j$ es un modelo de Markov correspondiente a la $Seq_j$ , definida por su matriz de probabilidad de transición y su vector de probabilidades de inicio. La medida es simétrica, como se desprende de la definición. Para hacer la medida más "legible" y similar a las medidas tradicionales, calculo la distancia $=(1-D)$ de la fórmula (1). Así, $D(X_i,X_i) = 0$ y la distancia aumenta si la probabilidad disminuye.

Ahora, tengo una matriz de distancias de 50x50. He realizado una comprobación de la "significatividad", y me pareció que estaba bien, es decir, que las secuencias más similares tenían una distancia menor y las muy diferentes tenían una distancia muy grande. Las distancias parecían satisfacer la desigualdad del triángulo. Sin embargo, me he dado cuenta de que:

1) las secuencias más cortas parecen estar "más cerca" de todas las demás secuencias que las más largas. Parece que esta medida de distancia está sesgada para favorecer las distancias cortas.

2) He probado la agrupación PAM con la matriz de distancia convirtiendo mi matriz de distancia en objeto dist en R utilizando as.dist(), y mis resultados fueron muy malos, incluso para 2 clusters o 49 (anchura máxima de la silueta producida por R era de 0,28). Con algunos números de conglomerados, la anchura media de las siluetas era incluso negativa.

Estoy llegando a la conclusión de que mi forma de calcular los medoides es inválida/conceptualmente errónea. ¿Cuál podría ser el problema? ¿Se puede utilizar la matriz de distancia de probabilidad logarítmica con la agrupación de medoides?

edit: Incluyo el mapa de calor de la matriz de distancias, donde los ejes x e y representan las secuencias (del 1 al 50). Se ve extraño para mí, pero no puedo precisar lo que exactamente no se siente bien.

heatmap

1voto

mmw Puntos 795

¿Qué definición de log-likelihood es esa? He visto $$r(a,b) = \log \frac{P(a|Mod)}{P(b|Mod)} = \log(P(a|Mod)) - \log(P(b|Mod)) ,$$ pero aquí estás restando tus dos probabilidades.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X