11 votos

Encontrar el número de gaussianas en un número finito de mezcla con Wilks' teorema?

Supongamos que tenemos un conjunto de independientes, idénticamente distribuidas univariante observaciones $x$ y dos hipótesis acerca de cómo $x$ fue generado:

$H_0$: $x$ se extrae de una sola distribución de Gauss con desconocidos media y la varianza.

$H_A$: $x$ se dibuja a partir de una mezcla de dos Gaussianas con desconocidos media, la varianza y el coeficiente de mezcla.

Si entiendo correctamente, estos son modelos anidados, puesto que el modelo que $H_0$ representa puede ser descrito en términos de $H_A$ si se limitan los parámetros de las dos Gaussianas para ser idénticos o restringir la mezcla coeficiente a cero para uno de los dos Gaussianas.

Por lo tanto, parece que debería ser capaz de utilizar el E-M algoritmo para la estimación de los parámetros de $H_A$ y, a continuación, utilizar Wilks' Teorema para determinar si la probabilidad de los datos en virtud de $H_A$ es significativamente mayor que la de $H_0$. Hay un pequeño salto de la fe en la asunción de que el E-M algoritmo converge a la máxima probabilidad de aquí, pero es que yo estoy dispuesto a hacer.

He intentado esto en una simulación de monte carlo, suponiendo que $H_A$ tiene más de 3 grados de libertad de $H_0$ (la media y la varianza para el segundo de Gauss y la mezcla de parámetro). Cuando me simulada de los datos de $H_0$, tengo un P-valor de la distribución que fue sustancialmente no uniforme y se enriquece de los pequeños P-valores. (Si E-M no convergen a la verdad de máxima verosimilitud, el opuesto exacto sería de esperar.) ¿Qué pasa con mi solicitud de Wilks' teorema de que la creación de este sesgo?

10voto

Nathan Long Puntos 30303

Con una cuidadosa especificación de cómo la hipótesis nula está contenida en los dos componentes del modelo de mezcla, es posible ver lo que podría ser el problema. Si los cinco parámetros en el modelo de mezcla de se $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$, luego $$H_0: (\mu_1 = \mu_2 \text{ and } \sigma_1 = \sigma_2) \text{ or } \rho \in \{0, 1\}.$$ porque cualquiera de los dos normales componentes de la mezcla son iguales, en cuyo caso la proporción de la mezcla $\rho$ es irrelevante, o la mezcla de proporción $\rho$ es de 0 o 1, en cuyo caso uno de los componentes de la mezcla es irrelevante. La conclusión es que la hipótesis nula no puede ser especificado, ni siquiera a nivel local, como un parámetro simple restricción de que las gotas de la dimensión del espacio de parámetros de 5 a 2.

La hipótesis nula es complicado subconjunto de los parámetros de espacio, y en la anulación de los parámetros no son ni siquiera de identificación personal. La costumbre hipótesis necesarias para obtener Wilk del teorema de romper, más en particular, no es posible construir una adecuada expansión de Taylor de la log-verosimilitud.

Yo no tengo ninguna experiencia personal con este problema en particular, pero sé de otros casos donde los parámetros de "desaparecer" bajo la nulos, lo que parece ser el caso aquí, y en estos casos las conclusiones de Wilk del teorema de romper demasiado. Una búsqueda rápida dio, entre otras cosas, este papel que parece relevante, y donde usted podría ser capaz de encontrar más referencias sobre el uso de la prueba de razón de verosimilitud en relación a los modelos de mezcla.

5voto

JohnRos Puntos 3211

La inferencia sobre el número de componentes de mezcla no cumple con la necesaria regularidad condiciones de Wilks teorema debido a que (a) el parámetro de $\rho$ está en el límite del espacio de parámetros y (b) la parametrisation es inidentificable bajo el null. Esto no es decir que la distribución de la generalización de la razón de verosimilitud es desconocido! Si todos los 5 parámetros en la configuración son desconocidos, y lo que es más importante - sin límites - a continuación, la distribución de la LR estadística no convergen. Si todos los no identificables parámetros de acotado, entonces el LR estadística es monotono en el supremum de un truncado proceso Gaussiano. La covarianza de los que no es fácil de calcular en la general, (5 parámetro), e incluso cuando se tiene la distribución de la supremum de un proceso que no es fácil de aproximar. Para unos resultados prácticos en relación con los dos componentes de la mezcla ver aquí. Curiosamente, el documento muestra que en lugar de simples configuraciones, la LR estadística de hecho es menos potente que algunos más simples estadísticas. Para el trabajo seminal en la derivación de la distribución asintótica en tales problemas, consulte aquí. Para todos los propósitos prácticos, puede montar la mezcla utilizando un EM y, a continuación, arranque de la distribución de la LR estadística. Esto podría tomar algún tiempo, ya que la EM es conocido por ser lento, y se necesitan muchas replicación para capturar el efecto del tamaño de la muestra. Ver aquí para más detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X