Tener miedo. Tener mucho miedo.
El año pasado, se entrevistó a John Nash, el autor de optim y optimx, para un artículo en IBM DeveloperWorks sitio. Hablamos acerca de cómo los optimizadores de trabajo y por qué fallan cuando fallan. Él parecía dar por sentado que a menudo lo hacen. Es por eso que los diagnósticos se incluyen en el paquete. Pensó también en que es necesario "entender el problema", y entender los datos. Todo lo cual significa que las advertencias deben ser tomadas en serio, y son una invitación a mirar tus datos de otras maneras.
Normalmente, un optimizador deja de buscar cuando ya no puede mejorar la función de pérdida por una significativa cantidad. No sabe a dónde ir, básicamente. Si el gradiente de la función de pérdida no es cero en ese punto, no ha llegado a un extremo de cualquier tipo. Si el estado de Hesse no es positivo, pero la pendiente es cero, no ha encontrado un mínimo, pero posiblemente, te hizo encontrar un máximo o un punto de silla. Dependiendo del optimizador, sin embargo, los resultados sobre el estado de Hesse podría no ser suministrado. En Optimx, si desea que las condiciones KKT evaluado, usted tiene que pedir para ellos -- ellos no son evaluados de forma predeterminada. (Estas condiciones mirar el gradiente y de Hess para ver si realmente tienes un mínimo.)
El problema con los modelos mixtos es que la varianza de las estimaciones de los efectos aleatorios que están obligados a ser positivo, por lo tanto la colocación de un límite dentro de la optimización de la región. Pero supongamos que un particular efecto aleatorio no es realmente necesario en el modelo, es decir, la varianza de los efectos aleatorios es 0. Su optimizador de la cabeza en el borde,ser incapaz de continuar, y se detiene con un no-cero de gradiente. Si la eliminación de azar que se ha mejorado el efecto de convergencia, usted sabrá que ese era el problema.
Como un aparte, tenga en cuenta que asintótica de máxima verosimilitud de la teoría asume que el MLE se encuentra en un punto interior (es decir, no sobre el límite de lícito valores de los parámetros), por lo que el cociente de probabilidad de las pruebas para los componentes de varianza puede que no funcione cuando, de hecho, la hipótesis nula de cero, la varianza es cierto. La prueba puede realizarse mediante pruebas de simulación, como el implementado en el paquete RLRsim.
Para mí, sospecho que los optimizadores de problemas cuando hay muy pocos datos para el número de parámetros, o el modelo propuesto no es realmente adecuado. Creo vidrio zapatilla y feo paso-hermana: no se puede calzador sus datos en el modelo, no importa cuánto te esfuerces, y algo tiene que ceder.
Incluso si los datos suceder para ajustar el modelo, puede que no tenga el poder para estimar todos los parámetros. Una cosa curiosa que me pasó a lo largo de esas líneas. He simulado algunos modelos mixtos para responder a una pregunta acerca de ¿qué pasa si usted no permita que el de efectos aleatorios correlacionados cuando el ajuste de un modelo de efectos mixtos. Yo los datos simulados con una fuerte correlación entre los dos efectos aleatorios, a continuación, ajuste el modelo de las dos maneras con lmer: la postulación de 0 correlaciones y libre de correlaciones. La correlación del modelo de mejor ajuste que el modelo de correlación, pero, curiosamente, en el año 1000 simulaciones, yo tenía 13 errores cuando se ajusta el modelo verdadero y 0 errores al montar el modelo más sencillo. No entiendo por qué pasó esto (y lo he repetido los sims a resultados similares). Tengo la sospecha de que el parámetro de correlación es bastante inútil y el optimizador no puede encontrar el valor (porque no importa).
Se le preguntó sobre qué hacer cuando los diferentes optimizadores de dar resultados diferentes. Juan y yo hablamos de este punto. Algunos optimizadores, en su opinión, no sólo es que bueno! Y todos ellos tienen puntos de debilidad, es decir, conjuntos de datos que va a causar que fallen. Esta es la razón por la que él escribió optimx, que incluye una variedad de optimizadores. Puede ejecutar varios sobre el mismo conjunto de datos.
Si dos de los optimizadores de dar los mismos parámetros, pero diferentes diagnósticos-y la de aquellos parámetros que la del mundo real sentido, entonces yo estaría inclinado a confiar en los valores de los parámetros. La dificultad podría estar con el diagnóstico, que no infalible. Si no se proporciona explícitamente el gradiente de la función y/o de la matriz Hessiana, el optimizador de necesidad para la estimación de la función de pérdida y los datos, que es apenas algo más que puede ir mal.
Si usted está recibiendo diferentes valores de los parámetros así, entonces es posible que desee probar diferentes valores de partida y a ver qué pasa a continuación. Algunos optimizadores y algunos de los problemas son muy sensibles a los valores de partida. Quieres ser partida en el parque de pelota.