Supongamos que tenemos dos conjuntos de muestras $\mathcal{D}_1$ y $\mathcal{D}_2$ . Sus tamaños muestrales pueden ser idénticos o no, pero ambos son suficientemente grandes. Entonces podemos obtener sus distribuciones estimadas a partir de las muestras utilizando métodos de estimación como el estimador de densidad kernel. Denotemos la distribución $P_1$ correspondiente a $\mathcal{D}_1$ y $P_2$ correspondiente a $\mathcal{D}_2$ . Mi pregunta es: ¿cómo medir la similitud entre las distribuciones estimadas $P_1$ y $P_2$ ?
Respuesta
¿Demasiados anuncios?Hay muchas formas posibles. He aquí dos de uso común. Ambas convierten las funciones de densidad estimadas en FCD.
Un método consiste en buscar la discrepancia máxima (diferencia absoluta) entre las dos FCD (vertical, horizontal o en un ángulo de 45 grados). Observe la estadística de prueba de la bondad de ajuste de Kolmogorov-Smirnov para ver un ejemplo. [Busca en Google "prueba de Kolmogorov-Smirnov"].
Un segundo método consiste en integrar $|F_1(x) - F_2(x)|$ , encontrando en efecto el área delimitada por las dos FDA. La bondad de ajuste de Cramer-von Mises utiliza esta idea.
Estoy seguro de que debe haber muchas otras medidas de diferencia en uso, pero éstas pueden ser las más utilizadas.