5 votos

Cuál es la calidad de una distribución describe el "spikiness" de su densidad, y ¿cómo puedo conseguir un buen diagrama de densidad de una distribución de punta?

Yo soy un programador, no de las matemáticas chico, así que por favor responder en inglés. ;)

Supongamos que tengo un multi-modal de la distribución univariante como:

.. . .. ........... .. . .. .

pero con cada "cluster" (donde cada uno de los grupos está normalmente distribuida) mucho más separadas y más grupos. Si hago una densidad de trama de este con R, que va a ser de punta, pero algunos de los menos espigas densas podría no ser suave porque el "óptimo" de ancho de banda fue dominado por el más densos racimos.

Comparar a una distribución unimodal como:

. . . .. . . . ... .. . . .. . . . .

El diagrama de densidad de esta distribución se ven muy bien.

Lo que la propiedad se describe la multi-modalidad de una distribución? Estoy bastante seguro de que el ex distribución sería mejor modelados por la separación de cada grupo en una distribución independiente y haciendo una densidad de la parcela por separado. Pero estoy seguro de cómo separar la distribución en estos grupos de manera robusta.

0voto

dandar Puntos 344

Si entiendo tu pregunta, usted tiene un conjunto de puntos de datos que representan una sola variable (mediciones de la altura de la gente dice) y se describen dos escenarios, uno donde los datos tienen un modo, otros de múltiples modos. Cuando se trazan contra otra variable, tipos de datos cerca de diferentes modos tienden a aparecer en diferentes grupos o clusters, y normalmente se desea determinar qué tipos de datos que pertenecen a los grupos. En la altura de ejemplo, una parcela de la altura en el eje y frente al peso en el eje x puede mostrar distintos grupos de personas que en gran medida explican la multi-modalidad.

Alguien mencionó k-means clustering para determinar qué tipos de datos pertenecen a la cual clúster y esto puede ser usado. Otro método es el modelo de clustering basado en el uso de modelos de mezcla – finito de modelos de mezcla si las densidades son normales. Estos modelos pueden ser equipados en R, y que el uso de funciones de probabilidad para adaptarse a los modelos y realizar la agrupación en clústeres de determinar qué tipos de datos se encuentran en cada grupo). Por lo que yo sé de un método para determinar si 1,2,3,.. clusters están presentes en los datos de ajuste secuencial finito de modelos de mezcla utilizando 1,2,3.. clusters y comparar el total de las probabilidades. Por lo general las medidas llama AIC y/o BIC se utilizan para hacer las comparaciones, y estos correcta por el hecho de que los diferentes modelos pueden utilizar un número diferente de parámetros. Como yo entiendo las cosas, las pruebas estadísticas para estas comparaciones no son válidos (es decir, no podemos hacer que la probabilidad de las declaraciones acerca de las comparaciones, sino que simplemente comparar el AIC/BIC).

Tener una mirada en el papel de "Finito de modelos de mezcla y el modelo basado en la agrupación" por Melnykov (2010) para un buen resumen. Lo puedes encontrar en http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.ssu/1272547280.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X