53 votos

Motivación para la distancia de Kolmogorov entre distribuciones

Hay muchas maneras de medir qué tan similares son dos distribuciones de probabilidad. Entre los métodos que son populares (en diferentes círculos) se encuentran:

  1. la distancia de Kolmogorov: la distancia sup entre las funciones de distribución;

  2. la distancia de Kantorovich-Rubinstein: la diferencia máxima entre las expectativas con respecto a las dos distribuciones de funciones con constante de Lipschitz $1$, que también resulta ser la distancia $L^1$ entre las funciones de distribución;

  3. la distancia de Lipschitz acotada: como la distancia de K-R pero también se requiere que las funciones tengan un valor absoluto como máximo $1$.

Estos tienen diferentes ventajas y desventajas. Solo la convergencia en el sentido de 3. corresponde precisamente a la convergencia en distribución; la convergencia en el sentido de 1. o 2. es ligeramente más fuerte en general. (En particular, si $X_n=\frac{1}{n}$ con probabilidad $1$, entonces $X_n$ converge a $0$ en distribución, pero no en la distancia de Kolmogorov. Sin embargo, si la distribución límite es continua entonces esta anomalía no ocurre.)

Desde la perspectiva de la probabilidad elemental o la teoría de la medida, 1. es muy natural porque compara las probabilidades de estar en algún conjunto. Una perspectiva probabilística más sofisticada, por otro lado, tiende a centrarse más en las expectativas que en las probabilidades. Además, desde la perspectiva del análisis funcional, distancias como 2. o 3. basadas en la dualidad con algún espacio de funciones son muy atractivas, porque existen una gran cantidad de herramientas matemáticas para trabajar con tales cosas.

Sin embargo, mi impresión (¡corríjame si me equivoco!) es que en estadística, la distancia de Kolmogorov es la forma preferida habitualmente de medir la similitud de distribuciones. Puedo suponer una razón: si una de las distribuciones es discreta con soporte finito —en particular, si es la distribución de algunos datos del mundo real— entonces la distancia de Kolmogorov a una distribución modelo es fácil de calcular. (La distancia K-R sería un poco más difícil de calcular, y probablemente la distancia B-L sería imposible en términos prácticos.)

Entonces mi pregunta (¡finalmente!) es, ¿hay otras razones, ya sean prácticas o teóricas, para favorecer la distancia de Kolmogorov (u otra distancia) para fines estadísticos?

1 votos

Me gusta la pregunta, puede que la mayoría de las posibles respuestas ya estén incluidas en la pregunta... ¿tienes alguna idea del tipo de respuesta/desarrollo que buscas?

1 votos

No muy específicamente. Soy bastante ignorante en estadísticas y una de mis razones para preguntar es aprender qué criterios usarían los estadísticos para elegir entre diferentes métricas. Dado que ya describí una ventaja práctica importante de 1 (puedes calcularlo en realidad) estoy especialmente interesado en las motivaciones teóricas. ¿La información proporcionada por estimaciones de distancia de Kolmogorov se utiliza frecuentemente directamente en aplicaciones?

0 votos

Olvidé terminar mi comentario anterior con lo más o menos obvio: ¿y si es así, cómo?

12voto

Grant Puntos 5366

Mark,

La principal razón de la cual tengo conocimiento para el uso de K-S es porque surge naturalmente de los teoremas de Glivenko-Cantelli en procesos empíricos univariados. La referencia que recomendaría es A.W. van der Vaart "Estadísticas Asintóticas", cap. 19. Un monográfico más avanzado es "Convergencia Débil y Procesos Empíricos" de Wellner y van der Vaart.

Agregaría dos notas rápidas:

  1. otra medida de distancia comúnmente utilizada en distribuciones univariadas es la distancia de Cramer-von Mises, la cual es una distancia L^2;
  2. en general, en espacios vectoriales se emplean diferentes distancias; el espacio de interés en muchos artículos es polaco. Una muy buena introducción es "Convergencia de Medidas de Probabilidad" de Billingsley.

Pido disculpas si no puedo ser más específico. Espero que esto ayude.

2 votos

Dos notas rápidas sobre tus notas. 1. La distancia C-vM es el equivalente en L^2 de la distancia de Kolmogorov (L^infinity) y las distancias K-R (L^1) (univariables), por lo que interpola entre ellas. 2. Una ventaja que no mencioné de las distancias K-R y B-L es que se generalizan de forma más natural a espacios de dimensiones superiores.

0 votos

En cuanto a 1., eso es correcto. En cuanto a 2. En principio, todas las distancias mencionadas podrían aplicarse a R^n, sin embargo no conozco pruebas no paramétricas populares basadas en ninguna distancia. Sería interesante saber si las hay.

10voto

David Pokluda Puntos 4284

En resumen, mi respuesta es: si tienes una expresión explícita o puedes averiguar de alguna manera qué está midiendo tu distancia (a qué "diferencias" les da peso), entonces puedes decir para qué es mejor. Otra forma complementaria de analizar y comparar dicho test es la teoría minimax.

Al final, algunos tests serán buenos para algunas alternativas y otros para otras. Para un conjunto dado de alternativas, a veces es posible mostrar si tu test tiene propiedades óptimas en el peor de los casos: esto es la teoría minimax.


Algunos detalles

Por lo tanto, puedes hablar sobre las propiedades de dos tests diferentes considerando el conjunto de alternativas para las cuales son minimax (si dichas alternativas existen), es decir, (usando las palabras de Donoho y Jin) comparando su "límite de detección óptimo" Link.

Vamos distancia por distancia:

  1. La distancia KS se obtiene calculando el supremo de la diferencia entre la cdf empírica y la cdf. Al ser un supremo, será muy sensible a las alternativas locales (cambios locales en la cdf) pero no con los cambios globales (al menos usando la distancia L2 entre cdf sería menos local (¿Estoy abriendo una puerta abierta?)). Sin embargo, lo más importante es que utiliza la cdf. Esto implica una asimetría: se le da más importancia a los cambios en la cola de tu distribución.

  2. La métrica de Wasserstein (¿a lo que te refieres con Kantorovitch Rubinstein?) http://en.wikipedia.org/wiki/Wasserstein_metric es ubicua y, por lo tanto, difícil de comparar.

  • Para el caso particular de W2 se ha utilizado en Link y está relacionado con la distancia L2 a la inversa de la cdf. Mi entendimiento es que da aún más peso a las colas, pero creo que deberías leer el artículo para saber más al respecto.
  • Para el caso de la distancia L1 entre funciones de densidad, dependerá en gran medida de cómo estimes tu función de densidad a partir de los datos... pero, de lo contrario, parece ser una "prueba equilibrada" que no da importancia a las colas.

Para recordar y ampliar el comentario que hice que completa la respuesta:

Sé que no pretendías ser exhaustivo, pero podrías agregar la estadística de Anderson-Darling (ver http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test). Esto me hizo recordar un artículo de Jager y Wellner (ver Link) que extiende/generaliza la estadística de Anderson-Darling (e incluye en particular la crítica superior de Tukey). La crítica superior ya se demostró como minimax para una amplia gama de alternativas, y lo mismo se hace por Jager y Wellner para su extensión. No creo que se haya demostrado la propiedad minimax para el test de Kolmogorov. De todos modos, entender para qué tipo de alternativas tu test es minimax te ayuda a saber cuál es su fortaleza, así que deberías leer el artículo mencionado anteriormente.

1 votos

Sí, lo que llamé la distancia de Kantorovitch-Rubinstein también se llama la distancia de Wasserstein L^1 o W1. También se conoce con muchos otros nombres.

3 votos

Solo para aclarar a cualquier persona que no esté familiarizada con las distancias de Wasserstein que lea esto y la respuesta de gappy: la distancia de Wasserstein L^2 (W2) no es lo mismo que la distancia de Cramer-von Mises.

9voto

Bernard Puntos 10700

Los problemas computacionales son el argumento más sólido que he escuchado en un sentido u otro. La mayor ventaja del distancia de Kolmogorov es que es muy fácil de calcular analíticamente para prácticamente cualquier CDF. La mayoría de las otras métricas de distancia no tienen una expresión en forma cerrada excepto, a veces, en el caso gaussiano.

La distancia de Kolmogorov de una muestra también tiene una distribución de muestreo conocida dada la CDF (no creo que la mayoría de las otras lo tengan), lo cual termina estando relacionado con el proceso de Wiener. Esta es la base para la prueba de Kolmogorov-Smirnoff para comparar una muestra con una distribución o dos muestras entre sí.

En una nota más de análisis funcional, la norma sup es agradable en el sentido de que (como mencionas) básicamente define convergencia uniforme. Esto te deja con la convergencia de la norma implicando convergencia puntual, por lo que si eres inteligente sobre cómo defines tus secuencias de funciones puedes trabajar dentro de un RKHS y utilizar todas las herramientas agradables que eso proporciona también.

7voto

Chris Cudmore Puntos 634

No puedo darte razones adicionales para usar la prueba de Kolmogorov-Smirnov. Pero puedo darte una razón importante para no usarla. No se ajusta bien a la cola de la distribución. En este sentido, una prueba de ajuste de distribución superior es Anderson-Darling. Como segunda opción, la prueba de Chi Cuadrado es bastante buena. Ambas son consideradas mucho más superiores que la prueba K-S en este aspecto.

5voto

guillermooo Puntos 2711

Creo que hay que considerar las ventajas teóricas frente a las ventajas aplicadas de las diferentes nociones de distancia. Objetos matemáticamente naturales no necesariamente se traducen bien en la aplicación. Kolmogorov-Smirnov es el más conocido para la aplicación, y está arraigado en la prueba de bondad de ajuste. Supongo que una de las razones de esto es que cuando la distribución subyacente $F$ es continua, la distribución de la estadística es independiente de $F. Otra es que se puede invertir fácilmente para dar bandas de confianza para la CDF.

Pero a menudo se usa de una manera diferente donde $F$ es estimado por $\hat{F}$, y la estadística de prueba toma la forma $$\sup_x | F_n(x) - \hat{F}(x)|.$$ El interés está en ver qué tan bien $\hat{F}$ se ajusta a los datos y actuar como si $\hat{F} = F$, aunque la teoría asintótica no necesariamente se aplique.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X