Existe un concepto específico para comparar distribuciones, que debería ser más conocido: la distribución relativa.
Supongamos que tenemos variables aleatorias $Y_0, Y$ con funciones de distribución acumulativa $F_0, F$ y queremos compararlos, utilizando $F_0$ como referencia.
Defina $$ R = F_0(Y) $$ La distribución de la variable aleatoria $R$ es la distribución relativa de $Y$ con $Y_0$ como referencia. Obsérvese que tenemos que $F_0(Y_0)$ tiene siempre la distribución uniforme (con variables aleatorias continuas, si las variables aleatorias son discretas será aproximada).
Veamos un ejemplo. El sitio web http://www.math.hope.edu/swanson/data/cellphone.txt ofrece datos sobre la duración de la última llamada telefónica de los estudiantes de ambos sexos. Expresemos la distribución de la duración de las llamadas telefónicas de los estudiantes varones, tomando como referencia a las estudiantes mujeres.
Podemos ver inmediatamente que los hombres (en esta clase universitaria ...) tienden a tener llamadas más cortas que las mujeres ... y esto se expresa directamente, de una manera muy directa. En el $x$ se muestran las proporciones en la distribución de las mujeres, y podemos leer que, por ejemplo, para el tiempo $T$ (cualquiera que sea, su valor no se muestra) tal que el 20% de las llamadas de las mujeres fueran más cortas (o iguales) que ese, la densidad relativa para los hombres en ese intervalo varía entre 1,3 y 1,4 aproximadamente. Si aproximamos (mentalmente a partir del gráfico) la densidad relativa media en ese intervalo a 1,35, vemos que la proporción de hombres en ese intervalo es aproximadamente un 35% superior a la proporción de mujeres. Eso corresponde al 27% de los hombres de ese intervalo.
También podemos hacer el mismo gráfico con intervalos de confianza puntuales alrededor de la curva de densidad relativa:
Las amplias bandas de confianza en este caso reflejan el pequeño tamaño de la muestra.
Existe un libro sobre este método: Handcock
El código R para el gráfico está aquí:
phone <- read.table(file="phone.txt", header=TRUE)
library(reldist)
men <- phone[, 1]
women <- phone[, 3]
reldist(men, women)
title("length of men's last phonecall with women as reference")
Para la última parcela cambiar a:
reldist(men, women, ci=TRUE)
title("length of men's last phonecall with women as
reference\nwith pointwise confidence interval (95%)")
Obsérvese que los gráficos se obtienen mediante la estimación de la densidad del núcleo, con un grado de suavidad elegido mediante gcv (validación cruzada generalizada).
Algunos detalles más sobre la densidad relativa. Sea $Q_0$ sea la función cuantil correspondiente a $F_0$ . Sea $r$ sea un cuantil de $R$ con $y_r$ el valor correspondiente en la escala de medición original. Entonces, la densidad relativa puede escribirse como $$ g(r) = \frac{f(Q_0(r))}{f_0(Q_0(r))} $$ o en la escala de medición original como $g(r)=\frac{f(y_r)}{f_0(y_r)}$ . Esto demuestra que la densidad relativa puede interpretarse como un cociente de densidades. Pero, en la primera forma, con el argumento $r$ es también una densidad por derecho propio, integrando a uno sobre el intervalo $(0,1)$ .
Eso lo convierte en un buen punto de partida para la inferencia.