4 votos

¿Cómo analizar los datos en el espacio métrico?

Me corrió un experimento y no estoy seguro de cómo analizar los datos. Mis datos son valores de la distancia entre objetos en un espacio métrico delimitada por [0,1]. He elaborado una densidad de probabilidad de la estimación de la siguiente manera:enter image description here

Esto a mí me parece una especie de híbrido entre una exponencial y la distribución normal, ¿qué pruebas puedo ejecutar para hacer un mejor sentido de esto?


Más de fondo:

Este espacio métrico es un finito corpus de Documentos, la distancia entre lo que indica su similitud: si la distancia es 0 son idénticos, si 1 no tienen en común. Esta muestra representa a todas las distancias entre 1.000 seleccionados al azar de los documentos.

2voto

Ilya Puntos 226

Yo no puedo responder a la pregunta de ¿cuál es la distribución de las distancias, pero me puede arrojar algo de luz sobre por qué están viendo que muy afilado pico estrecho. Este es un aspecto de la maldición de la dimensionalidad, conocida como la distancia de la concentración. Al mejor de mi conocimiento el primer papel en este fenómeno fue Beyer et al "Cuando es el vecino más cercano significativa", donde los autores demuestran que en altas dimensiones probabilidad de espacios se puede esperar que las distancias entre los puntos de a que converge a un valor común, con alta probabilidad. El fenómeno es muy general, y se cumple para cualquier métrica (por ejemplo), aunque algunos convergen más lento que los demás. Algunos enlaces de interés están en el post de @Denis (y mi respuesta allí).

2voto

icelava Puntos 548

Una manera simple sería modelar sus datos como beta distribuido. La beta es por definición entre 0 y 1:

beta density

Para un toque adicional, podría modelo el topetón pequeño cero mezclando la beta con una masa del punto hay. Esto se hace comúnmente para añadir ceros «complementaria» a la distribución de Poisson ("Poisson inflado de cero"), pero parece que podría ser útil en tu caso también.

1voto

mat_geek Puntos 1367

Una circular de la distribución normal es, por supuesto, sin límites y por lo que no sería un ejemplo en el que todas las distancias sería caer en un círculo unitario, pero si hacemos la varianza lo suficientemente pequeño como el de la cola fuera del círculo es pequeño. La densidad de la distancia de un punto desde el centro de la circular de la distribución normal se llama una distribución de Rayleigh y tiene la asimetría comportamiento similar a su parcela. Recuerden $D=\sqrt{X^2+Y^2}$. Así que la forma de la distribución es principalmente dictada por la función de $X$ $Y$ que es. Tenga en cuenta que si $X$ $Y$ eran independientes normal estándar de las distribuciones de $D$ sería la raíz cuadrada de un $\chi^2$ con 2 grados de libertad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X