Tengo dos conjuntos de datos. Uno es el porcentaje real de población blanca en los condados de un estado americano y el otro es el porcentaje simulado de población blanca en los condados de un estado americano.
Datos sobre mi simulación:
Se trata de una simulación aleatoria realizada en el mapa de California con dos agentes, blanco y minoría. Su población total se basa en la proporción real de blancos y minorías en California. Por ejemplo, si hay 70% de blancos y 30% de minorías en California entonces los agentes (digamos un total de 100) serían 70 blancos y 30 de minorías. En primer lugar, el mapa está poblado aleatoriamente aleatoriamente con ambos agentes y luego se realizan unas 100 iteraciones de la simulación. En cada iteración el agente se mueve en función de determinadas condiciones. Los datos se toman después de la 100ª iteración e incluyen incluye qué porcentaje de blancos y minorías hay en un determinado condado de California.
A continuación, los datos del estado de California
california_actual_white = [0.52, 0.72, 0.9, 0.86, 0.91, 0.91, 0.67, 0.79, 0.89, 0.77, 0.89, 0.84, 0.9, 0.81, 0.82, 0.81, 0.87, 0.82, 0.71, 0.86, 0.86, 0.9, 0.86, 0.82, 0.89, 0.91, 0.82, 0.84, 0.93, 0.72, 0.85, 0.91, 0.8, 0.64, 0.88, 0.77, 0.76, 0.54, 0.67, 0.89, 0.61, 0.85, 0.55, 0.87, 0.88, 0.94, 0.87, 0.61, 0.87, 0.83, 0.73, 0.9, 0.88, 0.88, 0.9, 0.84, 0.75, 0.79]
california_simulated_white = [0.48, 0.54, 0.6, 0.62, 0.66, 0.69, 0.71, 0.71, 0.71, 0.72, 0.74, 0.75, 0.77, 0.78, 0.79, 0.79, 0.8, 0.8, 0.8, 0.81, 0.81, 0.82, 0.82, 0.82, 0.83, 0.84, 0.85, 0.85, 0.87, 0.87, 0.87, 0.88, 0.91, 0.92, 0.93, 0.93, 0.94, 0.94, 0.94, 0.94, 0.95, 0.95, 0.97, 0.97, 0.98, 0.98, 0.98, 0.98, 0.99, 0.99, 0.99, 0.99, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
¿Cómo podría encontrar una métrica de similitud entre estos dos conjuntos de datos?
Descubrí que estas tres opciones se pueden utilizar para encontrar la similitud y también todas ellas tienen un método en Python:
1) Distancia de la máquina terrestre
2) Divergencia de Kullback-Leibler
3) Similitud del coseno
Pero tengo algunas dudas al utilizar estos métodos. Son
1) Con la divergencia de Kullback-Leibler y la similitud del coseno, el valor cambia si vuelvo a barajar las dos matrices y calculo de nuevo las dos métricas pero en el caso de la distancia de movimiento de la tierra no es así. Se le dará mismo valor para los dos conjuntos de datos con respecto a la de los puntos de datos, lo que me hizo pensar en utilizar esta métrica.
2) Pero la segunda duda es que se puede utilizar la divergencia K-L y la distancia de los movimientos de la tierra sólo con dos distribuciones de probabilidad. Así que no estoy no estoy seguro de que si los dos conjuntos de datos anteriores son la probabilidad de probabilidad o no.
Así que mis dos últimas preguntas son
1) ¿Se consideran los conjuntos de datos anteriores como una distribución de probabilidad? En caso afirmativo, ¿por qué?
2) Si 1) es sí, ¿cuál es el mejor método para determinar la similitud? Si 1) es no, ¿cuál es el mejor método para determinar la similitud?
Antes me inclinaba por Earth Movers Distance ya que expuse el motivo en el apartado de dudas.