Hay muchas maneras de medir qué tan similares son dos distribuciones de probabilidad. Entre los métodos que son populares (en diferentes círculos) se encuentran:
-
la distancia de Kolmogorov: la distancia sup entre las funciones de distribución;
-
la distancia de Kantorovich-Rubinstein: la diferencia máxima entre las expectativas con respecto a las dos distribuciones de funciones con constante de Lipschitz $1$, que también resulta ser la distancia $L^1$ entre las funciones de distribución;
-
la distancia de Lipschitz acotada: como la distancia de K-R pero también se requiere que las funciones tengan un valor absoluto como máximo $1$.
Estos tienen diferentes ventajas y desventajas. Solo la convergencia en el sentido de 3. corresponde precisamente a la convergencia en distribución; la convergencia en el sentido de 1. o 2. es ligeramente más fuerte en general. (En particular, si $X_n=\frac{1}{n}$ con probabilidad $1$, entonces $X_n$ converge a $0$ en distribución, pero no en la distancia de Kolmogorov. Sin embargo, si la distribución límite es continua entonces esta anomalía no ocurre.)
Desde la perspectiva de la probabilidad elemental o la teoría de la medida, 1. es muy natural porque compara las probabilidades de estar en algún conjunto. Una perspectiva probabilística más sofisticada, por otro lado, tiende a centrarse más en las expectativas que en las probabilidades. Además, desde la perspectiva del análisis funcional, distancias como 2. o 3. basadas en la dualidad con algún espacio de funciones son muy atractivas, porque existen una gran cantidad de herramientas matemáticas para trabajar con tales cosas.
Sin embargo, mi impresión (¡corríjame si me equivoco!) es que en estadística, la distancia de Kolmogorov es la forma preferida habitualmente de medir la similitud de distribuciones. Puedo suponer una razón: si una de las distribuciones es discreta con soporte finito —en particular, si es la distribución de algunos datos del mundo real— entonces la distancia de Kolmogorov a una distribución modelo es fácil de calcular. (La distancia K-R sería un poco más difícil de calcular, y probablemente la distancia B-L sería imposible en términos prácticos.)
Entonces mi pregunta (¡finalmente!) es, ¿hay otras razones, ya sean prácticas o teóricas, para favorecer la distancia de Kolmogorov (u otra distancia) para fines estadísticos?
1 votos
Me gusta la pregunta, puede que la mayoría de las posibles respuestas ya estén incluidas en la pregunta... ¿tienes alguna idea del tipo de respuesta/desarrollo que buscas?
1 votos
No muy específicamente. Soy bastante ignorante en estadísticas y una de mis razones para preguntar es aprender qué criterios usarían los estadísticos para elegir entre diferentes métricas. Dado que ya describí una ventaja práctica importante de 1 (puedes calcularlo en realidad) estoy especialmente interesado en las motivaciones teóricas. ¿La información proporcionada por estimaciones de distancia de Kolmogorov se utiliza frecuentemente directamente en aplicaciones?
0 votos
Olvidé terminar mi comentario anterior con lo más o menos obvio: ¿y si es así, cómo?
0 votos
Acabo de releer mi extenso comentario anterior y me di cuenta de que la última pregunta que planteé es tanto una consideración práctica como teórica. En cualquier caso, es uno de los tipos de problemas sobre los que me interesaría aprender.
0 votos
Sé que no pretendías ser exhaustivo, pero podrías agregar la estadística de Anderson-Darling, querida (ver en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test). Esto me recordó un artículo de Jager y Wellner (ver projecteuclid.org/…) que extiende/generaliza la estadística de Anderson-Darling (e incluye en particular la crítica superior de Tukey)...
0 votos
Todas las respuestas hasta ahora son muy buenas y aportan una perspectiva interesante desde diferentes direcciones. No voy a aceptar ninguna porque no veo un criterio razonable para elegir solo una.
0 votos
¡Gracias por esta gran visión general :) ¿Hay libros que conozcas que traten especialmente sobre medidas de distancia para distribuciones en detalle? Estoy especialmente interesado en medidas no paramétricas que funcionen con suposiciones mínimas.
0 votos
@Ampleforth: No conozco ninguna fuente única que discuta muchas de estas distancias en general, y lo que he visto es principalmente desde la perspectiva de un matemático y no de un estadístico (de ahí mi pregunta). Simplemente vi una referencia a un libro Probability for Statisticians de Shorack que aparentemente discute muchas distancias de ese tipo.
0 votos
@robingirard ¿cómo difiere esto de la divergencia de Kullback-Leibler que también mide, en gran medida, cómo son diferentes dos distribuciones?