Tengo tres distribuciones diferentes de datos 2D:
o
Ahora Me gustaría saber si la distribución dos se parece más a la distribución uno (2 a 1) que la distribución tres a la distribución uno (3 a 1). ¿Cuál es la forma adecuada de medir esas similitudes (y preferiblemente expresarlas en un solo número)?
Lo que he hecho / pensado hasta ahora:
-
Como una especie de aproximación a una medida de similitud, en un primer paso utilicé la estimación de densidad de kernel bivariado acotado y luego correlacioné las PDFfs resultantes. Sin embargo, esta no parece ser la forma más apropiada, ya que grandes regiones de las PDF están altamente correlacionadas (por ejemplo, todas las regiones de baja probabilidad son ~0).
-
He considerado la posibilidad de utilizar el Prueba de Kolmogorov-Smirnov de dos muestras para distribuciones 2D; sin embargo, esto sólo me dice si las dos distribuciones son significativamente diferentes y no proporciona una medida de verosimilitud que me permita decir que los datos fueron mejor predichos por una u otra distribución.
-
Otro método que se me ocurrió fue ajustar una curva a los datos y simplemente medir la distancia euclidiana entre las curvas. Sin embargo, aquí no conozco la forma adecuada de ajustar una curva a datos 2D. Además, si consigo ajustar una curva cómo determino los puntos correspondientes en las curvas para medir la distancia.