3 votos

Encontrar la similitud entre dos conjuntos de datos

Tengo dos conjuntos de datos. Uno es el porcentaje real de población blanca en los condados de un estado americano y el otro es el porcentaje simulado de población blanca en los condados de un estado americano.

Datos sobre mi simulación:

Se trata de una simulación aleatoria realizada en el mapa de California con dos agentes, blanco y minoría. Su población total se basa en la proporción real de blancos y minorías en California. Por ejemplo, si hay 70% de blancos y 30% de minorías en California entonces los agentes (digamos un total de 100) serían 70 blancos y 30 de minorías. En primer lugar, el mapa está poblado aleatoriamente aleatoriamente con ambos agentes y luego se realizan unas 100 iteraciones de la simulación. En cada iteración el agente se mueve en función de determinadas condiciones. Los datos se toman después de la 100ª iteración e incluyen incluye qué porcentaje de blancos y minorías hay en un determinado condado de California.

A continuación, los datos del estado de California

california_actual_white = [0.52, 0.72, 0.9, 0.86, 0.91, 0.91, 0.67, 0.79, 0.89, 0.77, 0.89, 0.84, 0.9, 0.81, 0.82, 0.81, 0.87, 0.82, 0.71, 0.86, 0.86, 0.9, 0.86, 0.82, 0.89, 0.91, 0.82, 0.84, 0.93, 0.72, 0.85, 0.91, 0.8, 0.64, 0.88, 0.77, 0.76, 0.54, 0.67, 0.89, 0.61, 0.85, 0.55, 0.87, 0.88, 0.94, 0.87, 0.61, 0.87, 0.83, 0.73, 0.9, 0.88, 0.88, 0.9, 0.84, 0.75, 0.79]

california_simulated_white = [0.48, 0.54, 0.6, 0.62, 0.66, 0.69, 0.71, 0.71, 0.71, 0.72, 0.74, 0.75, 0.77, 0.78, 0.79, 0.79, 0.8, 0.8, 0.8, 0.81, 0.81, 0.82, 0.82, 0.82, 0.83, 0.84, 0.85, 0.85, 0.87, 0.87, 0.87, 0.88, 0.91, 0.92, 0.93, 0.93, 0.94, 0.94, 0.94, 0.94, 0.95, 0.95, 0.97, 0.97, 0.98, 0.98, 0.98, 0.98, 0.99, 0.99, 0.99, 0.99, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]

¿Cómo podría encontrar una métrica de similitud entre estos dos conjuntos de datos?

Descubrí que estas tres opciones se pueden utilizar para encontrar la similitud y también todas ellas tienen un método en Python:

1) Distancia de la máquina terrestre

2) Divergencia de Kullback-Leibler

3) Similitud del coseno

Pero tengo algunas dudas al utilizar estos métodos. Son

1) Con la divergencia de Kullback-Leibler y la similitud del coseno, el valor cambia si vuelvo a barajar las dos matrices y calculo de nuevo las dos métricas pero en el caso de la distancia de movimiento de la tierra no es así. Se le dará mismo valor para los dos conjuntos de datos con respecto a la de los puntos de datos, lo que me hizo pensar en utilizar esta métrica.

2) Pero la segunda duda es que se puede utilizar la divergencia K-L y la distancia de los movimientos de la tierra sólo con dos distribuciones de probabilidad. Así que no estoy no estoy seguro de que si los dos conjuntos de datos anteriores son la probabilidad de probabilidad o no.

Así que mis dos últimas preguntas son

1) ¿Se consideran los conjuntos de datos anteriores como una distribución de probabilidad? En caso afirmativo, ¿por qué?

2) Si 1) es sí, ¿cuál es el mejor método para determinar la similitud? Si 1) es no, ¿cuál es el mejor método para determinar la similitud?

Antes me inclinaba por Earth Movers Distance ya que expuse el motivo en el apartado de dudas.

3voto

carlo Puntos 31

1) Casi. Las proporciones pueden considerarse como la probabilidad condicional de encontrar una persona blanca, cuando se busca a alguien al azar en cada estado. A continuación, puede definir una función de probabilidad conjunta para las varibles "condado" y "color de piel". Esto significa que, si quieres convertir tu lista de proporciones en una distribución única, tienes que incluir las proporciones de los habitantes de cada condado, para que tus datos se parezcan mucho más:

      | 1st county | 2nd county | 3rd county
white |         .2           .1           .2
black |         .2           .2           .1

Observe que los totales por columnas no son iguales, y que el total general es 1. También puede poner todas estas probabilidades en un vector, antes de procesarlas. Si fijas las poblaciones de los condados en tu simulación para que sean las reales, la medida de similitud usando estas distribuciones reflejará sólo las diferencias entre las proporciones de personas blancas, dando más peso a los condados más poblados. Si no quiere esto, puede considerar cada una de sus proporciones como un valor de probabilidad de una distribución Bernoulli, y calcular 58 similitudes de esas distribuciones, antes de promediarlas.

2) depende. Hay infinitas posibilidades, y la mayoría de ellas probablemente estén bien. Las primeras que me vienen a la mente son el estadístico Chi-cuadrado y el phi de Cramer, pero también la divergencia de Kullback-Leibler tiene algún sentido en este caso. Aunque hay que tener en cuenta que la divergencia KL considera que una distribución es la verdadera y la otra es una aproximación a ella. Por lo tanto, si considera su simulación como una especie de modelo para describir cómo se distribuyen las personas de diferentes razas, es posible que desee utilizar la divergencia KL (así como la chi al cuadrado o la phi de Cramer) para describir cómo de cerca se acerca tu modelo a los datos reales. Pero yo preferiría utilizar una media de múltiples simulaciones, o alguna estimación del resultado esperado de tu modelo. No puedo entender ahora cómo funciona tu método, pero si esperas convergencia en tu simulación, entonces KL probablemente tiene sentido.

La intersección de histogramas es otro método factible.

La similitud del coseno es una medida de similitud con menos fundamento teórico, no muy relacionada con la probabilidad. Es posible que quiera utilizarla al igual que el MSE u otras innumerables medidas. La similitud del coseno funciona de una manera que es útil en otros tipos de aplicaciones en particular y no veo ninguna razón por la que usted debe elegir esta medida sobre los demás, pero todavía podría funcionar bien.

Sobre el EMD, escribiste:

1) En el caso de la divergencia de Kullback-Leibler y de la similitud del coseno, el valor cambia si se reorganizan las dos matrices y se calculan de nuevo las dos métricas, pero en el caso de la distancia de desplazamiento de la Tierra no es así.

pero esto es un error, es más bien lo contrario. Si se barajan los datos (siempre que se barajen los dos vectores de probabilidades manteniéndolos emparejados) todos los métodos que he discutido desde ahora dan los mismos resultados, se puede comprobar mirando sus fórmulas. EMD en cambio necesita (y es el único desde ahora) una métrica para evaluar la distancia entre varios condados. Por supuesto, la distancia real entre, digamos, las capitales de los condados, viene inmediatamente a la mente. Así que, si quiere tener en cuenta la posición geográfica de los datos, puede elegir esta métrica (y necesita utilizar sus coordenadas, por supuesto). Si su simulación no tiene en cuenta las distancias geográficas, preferiría no utilizarla.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X