Me pregunto si hay alguna prueba estadística para "probar" la importancia de una distribución bimodal. Es decir, ¿en qué medida mis datos cumplen la distribución bimodal o no? Si es así, ¿hay alguna prueba en el programa R?
Es un trabajo valioso.
Me pregunto si hay alguna prueba estadística para "probar" la importancia de una distribución bimodal. Es decir, ¿en qué medida mis datos cumplen la distribución bimodal o no? Si es así, ¿hay alguna prueba en el programa R?
Como se ha mencionado en los comentarios, la página de Wikipedia sobre "distribución bimodal" recoge ocho pruebas de multimodalidad frente a la unimodalidad y proporciona referencias para siete de ellos.
Hay al menos algunos en R. Por ejemplo:
El paquete diptest
implementa la prueba de inmersión de Hartigan.
El stamp
datos en el bootstrap
se utilizó en el paquete de Efron y Tibshirani Introducción a Bootstrap (el libro en el que se basa el paquete) para hacer un ejemplo relacionado con el bootstrapping en el número de modos; si tienes acceso al libro podrías utilizar ese enfoque.
Efron, B. y Tibshirani, R. (1993) Introducción a Bootstrap .
Chapman and Hall, Nueva York, Londres.
--
Hay una pregunta en el CV que habla de identificar (es decir, estimar en lugar de probar) el número de modos que la búsqueda de @whuber hace aparecer. Vale la pena leer las respuestas allí. Una de las respuestas allí (la mía, por cierto) tiene un enlace a una búsqueda en Google que aparece este de David Donoho sobre la construcción de ICs unilaterales para el número de modos, que por supuesto pueden utilizarse como prueba (por ejemplo, si el intervalo unilateral no incluye el caso unimodal, se puede rechazar la unimodalidad). Hasta donde yo sé, ese no es una de las pruebas que menciona Wikipedia. No creo que haya una implementación en R de ese intervalo, pero (a pesar de que Donoho tiende a utilizar herramientas bastante sofisticadas en su discusión de ello) es en realidad una idea bastante simple de implementar. Esa idea está directamente relacionada con la noción de utilizar la estimación de la densidad del núcleo.
Otro posible enfoque de esta cuestión es pensar en lo que podría estar ocurriendo entre bastidores que está generando los datos que se ven. Es decir, puedes pensar en términos de un modelo de mezcla Por ejemplo, un modelo de mezcla gaussiana. Por ejemplo, puede creer que sus datos proceden de una única población normal o de una mezcla de dos distribuciones normales (en cierta proporción), con medias y varianzas diferentes. Por supuesto, no tiene que creer que sólo hay una o dos, ni tiene que creer que las poblaciones de las que se extraen los datos tienen que ser normales.
Existen (al menos) dos paquetes de R que permiten estimar modelos de mezcla. Un paquete es flexmix y otra es mclust . Una vez estimados los dos modelos candidatos, creo que es posible realizar una prueba de razón de verosimilitud. Como alternativa, podría utilizar el método de ajuste cruzado bootstrap paramétrico ( pdf ).
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
6 votos
¿No has encontrado una respuesta por buscar en nuestro sitio ? Si no es así, ¿qué falta?
7 votos
Existen pruebas de bimodalidad o multimodalidad, pero suelen ser unilaterales. Es decir, se pueden concluir cosas como "hay más de un modo", pero no se puede decir "hay menos de tres modos"; se pueden obtener límites inferiores en el número de modos, pero no se pueden obtener realmente límites superiores, porque se puede encontrar una distribución multimodal con cualquier número de modos que se acerque arbitrariamente a una distribución con cualquier número menor de modos. Veré si puedo encontrar algunas pruebas o referencias explícitas.
4 votos
La página de la wikipedia sobre la distribución bimodal recoge ocho pruebas de multimodalidad frente a la unimodalidad y proporciona referencias para siete de ellos. No estoy seguro de si alguno está en R. Lo buscaré.