16 votos

Computación en el modo de datos de la muestra a partir de una distribución continua

¿Cuáles son los mejores métodos para el montaje de 'modalidad' de los datos muestreados de una distribución continua?

Desde el modo es técnicamente indefinido (¿verdad?) para una distribución continua, de verdad que estoy preguntando '¿cómo encontrar el valor más común'?

Si se supone que el padre de distribución es gaussiana, usted podría bin los datos y encontrar a decir que el modo es la ubicación de la papelera con el mayor de los condes. Sin embargo, ¿cómo se puede determinar el tamaño del bote? Hay robusto implementaciones disponibles? (es decir, sólido a los valores atípicos). Yo uso python/scipy/numpy, pero es probable que pueda traducir R sin demasiada dificultad.

5voto

Ted Puntos 854

En R, la aplicación de la metodología que no se base en el modelado paramétrico de la distribución subyacente y utiliza el kernel por defecto estimador de densidad de 10000 gamma variables de distribución:

x <- rgamma(10000, 2, 5)
z <- density(x)
plot(z) # always good to check visually
z$x[z$y==max(z$y)]

devuelve 0.199, que es el valor de x que se estima tienen la densidad más alta (las estimaciones de densidad se almacenan como "z$y").

2voto

Ηλίας Puntos 109

Ver el modeest paquete para R.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X