5 votos

Cómo comparar las distribuciones de dos variables

La figura adjunta representa las distribuciones de dos variables.

Quiero demostrar estadísticamente lo mucho que coinciden las dos distribuciones. ¿Cuál es la mejor manera de hacerlo?

enter image description here

0 votos

¿Cuántos puntos tienes?

1 votos

¿"Mejor" en qué sentido? ¿Qué intenta ser mejor en ? (¿qué hace que una cosa sea mejor que otra para sus propósitos?) ¿Dispone de los puntos de datos individuales en ambas muestras?

1voto

mjb Puntos 1183

Puede que no haya un mejor solución como tal. Pero si se trata de visualizar la similitud de la distribución, se pueden utilizar gráficos de violín en lugar de gráficos de caja.

Sin embargo, si lo que quieres calcular son medidas estadísticas de similitud, creo que deberías intentar ajustar las distribuciones con varias distribuciones estándar y ver cómo se comparan. Si está familiarizado con GLD s (Generalized Lambda Distributions), puede obtener ajustes GLD para cada una de las distribuciones y comparar sus parámetros resultantes.

0 votos

Me temo que no estoy familiarizado con los GLD. Me pregunto... ¿podría ser una opción comparar sus distribuciones con chi-cuadrado?

0 votos

Puede que no sea la mejor opción. Pero sí, es una opción. Todo depende de la medida que necesite.

1voto

user44171 Puntos 11

Para comparar dos distribuciones tienes varias opciones.

En primer lugar, puedes visualizar las dos distribuciones:

  • trazar las funciones de densidad de probabilidad
  • trazar las funciones de distribución acumulativa
  • un gráfico cuantil-cuantil

A continuación, puede caracterizar estadísticamente las diferencias entre las dos distribuciones:

  • realizar pruebas estadísticas de hipótesis para comprobar si existe una diferencia significativa entre las dos muestras; en tu caso (las distribuciones parecen ser un poco asimétricas) deberías recurrir a las pruebas no paramétricas de Mann-Whitney o Kolmogorov-Smirnov (si no sabes cómo funcionan estas pruebas, puedes encontrar buenas explicaciones en CrossValidated)
  • computa Divergencia de Kullback-Leibler (y medidas similares)

En particular, la divergencia de Kullback-Leibler es una medida no simétrica de la diferencia entre dos distribuciones de probabilidad, por ejemplo $P$ y $Q$ . Más concretamente, la divergencia KS de $Q$ a $P$ , $D_{KL}(P||Q)$ es una medida de la información que se pierde cuando $Q$ se utiliza para aproximar $P$ .

Para las distribuciones de probabilidad discretas $P$ y $Q$ la divergencia KS se define como: $$D_{KL}(P||Q) = \sum_{i}P(i) \ln \frac{P(i)}{Q(i)}, $$ mientras que en el caso continuo: $$D_{KL}(P||Q) = \int_{-\infty}^{\infty}p(x) \ln \frac{p(x)}{q(x)}dx,$$

donde $p$ y $q$ representan las densidades de $P$ y $Q$ .

Nótese que la divergencia KS es siempre no negativa: $D_{KL}(P||Q) \geq 0$ y la igualdad se mantiene si y sólo si $P = Q$ casi en todas partes .

0 votos

Me temo que la estimación de Kullback-Leibler basada en dos muestras no es algo fácil de tratar.

0 votos

Supongo que depende del tamaño de las dos muestras...

0voto

OpenAndroid Puntos 116

Compruebe la divergencia de Kullback-Leibler ( http://en.wikipedia.org/wiki/Kullback_Leibler_divergence ). Esto describe la pérdida de información cuando se utiliza una distribución para aproximar la otra

0 votos

Creo que @luciano tiene una muestra de cada distribución, no tiene las distribuciones en sí. Y me temo que la estimación de Kullback-Leibler basada en dos muestras no es una cosa fácil de tratar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X