4 votos

¿Cómo medir la similitud de distribuciones de probabilidad bivariantes?

Tengo tres distribuciones diferentes de datos 2D:

Example 1: Three different distributions of 2D data points

o

Example 2: Three different distributions of 2D data points

Ahora Me gustaría saber si la distribución dos se parece más a la distribución uno (2 a 1) que la distribución tres a la distribución uno (3 a 1). ¿Cuál es la forma adecuada de medir esas similitudes (y preferiblemente expresarlas en un solo número)?

Lo que he hecho / pensado hasta ahora:

  1. Como una especie de aproximación a una medida de similitud, en un primer paso utilicé la estimación de densidad de kernel bivariado acotado y luego correlacioné las PDFfs resultantes. Sin embargo, esta no parece ser la forma más apropiada, ya que grandes regiones de las PDF están altamente correlacionadas (por ejemplo, todas las regiones de baja probabilidad son ~0).

  2. He considerado la posibilidad de utilizar el Prueba de Kolmogorov-Smirnov de dos muestras para distribuciones 2D; sin embargo, esto sólo me dice si las dos distribuciones son significativamente diferentes y no proporciona una medida de verosimilitud que me permita decir que los datos fueron mejor predichos por una u otra distribución.

  3. Otro método que se me ocurrió fue ajustar una curva a los datos y simplemente medir la distancia euclidiana entre las curvas. Sin embargo, aquí no conozco la forma adecuada de ajustar una curva a datos 2D. Además, si consigo ajustar una curva cómo determino los puntos correspondientes en las curvas para medir la distancia.

3voto

Ludwi Puntos 188

Sugiero utilizar el Divergencia Jensen-Shannon (JSD). Para distribuciones $P$ y $Q$ viene dado por $$D_\text{JS}[P, Q] = \frac{1}{2} D_\text{KL}[P \mid\mid M] + \frac{1}{2} D_\text{KL}[Q \mid\mid M],$$

donde $M = \frac{1}{2}(P + Q)$ y $D_\text{KL}$ es el Divergencia de Kullback-Leibler . Sus ventajas sobre otras divergencias son que es simétrica, $\sqrt{D_\text{JS}[P, Q]}$ es una métrica adecuada, y es bastante intuitiva debido a su conexión con la información mutua *. También se puede generalizar a más de dos distribuciones si es necesario. Para $P$ y $Q$ puede utilizar las estimaciones no paramétricas ya obtenidas.

*En pocas palabras: Digamos que elijo al azar $P$ o $Q$ ambas con un 50% de probabilidad, extraer una muestra $x$ de él y dártelo a ti. Si puedes saber si $x$ vino de $P$ o $Q$ hay mucha información en $x$ sobre a qué distribución pertenece. Si no se puede saber, hay poca información y las dos distribuciones deben ser muy parecidas. Esto es lo que mide la JSD.

-1voto

Michal Bryxí Puntos 123

Podrías restar 2 y 3 cada uno de 1, normalizar las distribuciones resultantes y ojearlas. Llamaré a las distribuciones resultantes "distribuciones de diferencia". Entonces se compara una con otra. Cuanto más se acerque a una función delta de Dirac en cero, mejor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X