11 votos

¿Cómo elegir el mejor ajuste sin ajuste demasiado datos? Modelado de una distribución bimodal con funciones normales N, etc.

He obviamente una distribución bimodal de los valores, que me buscan para que se ajuste. Los datos se pueden encajar bien con cualquiera de las 2 funciones normales (bimodal) o con 3 funciones normales. Además, hay una plausible razón física para el ajuste de los datos con 3.

El mayor número de parámetros que se introducen, el más perfecto, el ajuste será, como con bastante constantes, uno puede "adaptarse a un elefante".

Aquí es el de la distribución, se ajustan a la suma de los 3 normal (Gaussiana) de las curvas:

Distribution with

Estos son los datos para cada ajuste. No estoy seguro de lo que prueba que se debe aplicar aquí para determinar el ajuste. Los datos se compone de 91 puntos.

1 La Función Normal:

  • RSS: 1.06231
  • X^2: 3.1674
  • F. Prueba: 0.3092

2 Funciones Normales:

  • RSS: 0.010939
  • X^2: 0.053896
  • F. Prueba: 0.97101

3 Funciones Normales:

  • RSS: 0.00536
  • X^2: 0.02794
  • F. Prueba: 0.99249

¿Cuál es la correcta estadístico de prueba que se puede aplicar para determinar cual de estos 3 se ajusta es el mejor? Obviamente, la 1 la función normal ajuste es insuficiente. Entonces, ¿cómo puedo discriminar entre 2 y 3?

Para agregar, yo soy todo hacerlo con Excel y un poco de Python; yo aún no tienen familiaridad con el R o de otros estadísticos idiomas.

7voto

Chris Novak Puntos 460

Aquí son dos formas de abordar el problema de la selección de su distribución:

  1. Para la comparación de los modelos de uso de una medida que penaliza el modelo dependiendo del número de parámetros. Los criterios de información de ello. El uso de un criterio de información para elegir el modelo que va a retener, elegir el modelo con el menor criterio de información (por ejemplo AIC). La regla de oro para comparar si una diferencia de AIC es importante es si la diferencia en el AIC es mayor que 2 (esto no es una formales de la prueba de hipótesis, consulte la Prueba de la diferencia en la AIC de dos modelos anidados).

    La AIC = $2k - 2ln(L)$ donde $k$ es el número de parámetros estimados y $L$ es el de máxima verosimilitud, $L = \max\limits_{\theta} L(\theta |x)$ $L(\theta |x) = Pr(x|\theta)$ es la probabilidad de la función y $\Pr(x|\theta)$ es la probabilidad de los datos observados $x$ condicional en el parámetro de distribución de $\theta$.

  2. Si desea formal de la prueba de hipótesis se podría proceder en menos de dos maneras. Podría decirse que la más fácil es para que se ajuste a sus distribuciones que utilizan parte de su muestra y que la prueba de si los residuos de las distribuciones son significativamente diferentes de usar un Chi-cuadrado o Kolgomorov-Smirnov en el resto de los datos. De esta manera usted no está utilizando los mismos datos para el ajuste y la prueba de su modelo como AndrewM se menciona en los comentarios.

    También podrías hacer una prueba de razón de verosimilitud con un ajuste a la nula distribución. Una versión de este se describe en la Lo, Y. et al. (2013) "la Prueba el número de componentes en la mezcla normal." Biometrika , pero no tengo acceso al artículo, así que no puedo proporcionar más detalles de cómo hacer exactamente esto.

    De cualquier manera, si la prueba no es importante conservar la distribución con el menor número de parámetros, si es importante elegir el uno con el mayor número de parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X