116 votos

¿Qué es la deficiencia de la fila y cómo tratar con él?

Ajuste de una regresión logística usando lme4 termina con

Error in mer_finalize(ans) : Downdated X'X is not positive definite. 

Una causa probable de este error es deficiencia aparentemente espesa. ¿Qué es la deficiencia de la fila, y ¿cómo debo tratarlo?

58voto

JMW.APRN Puntos 21

Para la definición de rango de una matriz, puede referirse a cualquier buen libro de texto de álgebra lineal, o eche un vistazo a la página de la Wikipedia.

$N \times p$ matriz $X$ se dice ser de rango completo si $n > p$, y sus columnas no son una combinación lineal de cada uno de los otros . En ese caso, el $p \times p$ matriz $X^TX$ es positiva definida, lo que implica que se tiene una inversa $(X^TX)^{-1}$.

Si $X$ no es de rango completo, una de las columnas se explica completamente por los demás, en el sentido de que es una combinación lineal de los otros. Un ejemplo trivial es cuando una columna está duplicado. Esto también puede suceder si usted tiene un 0-1 variables y una columna se compone de sólo 0 o 1. En ese caso, el rango de la matriz $X$ es de menos de $n$ y $X^TX$ no tiene inversa.

Ya que la solución de muchos problemas de regresión (incluyendo la regresión logística) implica el cálculo intermedio $(X^TX)^{-1}$, entonces es imposible estimar los parámetros del modelo. Por curiosidad, se puede comprobar aquí cómo este término está involucrado en la fórmula de regresión lineal múltiple.

Que fue de absoluta rango de deficiencia. Pero a veces el problema aparece cuando la matriz de $X$ es "casi" no rango completo, como extensamente detallado por @astillas de madera. Este problema se conoce generalmente como la multicolinealidad. Este problema es bastante común, usted puede encontrar más información sobre cómo tratar con él en puestos relacionados aquí y allí.

36voto

alexs77 Puntos 36

user974 la respuesta es fantástico desde una perspectiva de modelización y gui11aume la respuesta es fantástico desde una perspectiva matemática. Yo quiero matizar el ex responder estrictamente a partir de una mezcla de modelado de perspectiva: en concreto un generalizado mixto de modelado (GLMM) perspectiva. Como usted puede ver, usted ha hecho referencia a la función de R mer_finalize que está en el fantástico lme4 paquete. Usted también dice que usted es el ajuste de un modelo de regresión logística.

Hay muchos problemas que surgen con estos tipos de algoritmos numéricos. El problema de la estructura de la matriz del modelo de la matriz de efectos fijos es, sin duda vale la pena considerar, como user974 aludido. Pero esto es muy fácil de evaluar, simplemente calcula el model.matrix de su formula= y data= argumentos en un modelo y tomar su determinante el uso de la det función. Los efectos aleatorios, sin embargo, complican mucho la interpretación numérica de la estimación de la rutina, y la inferencia en el fijo de efectos (lo que normalmente consideramos como los coeficientes de regresión en un "regular" modelo de regresión).

Suponga que en el caso más sencillo que se realiza al azar intercepta modelo. A continuación, que son, básicamente, teniendo en cuenta que hay miles de ilimitada de fuentes de heterogeneidad que se mantienen constantes en medidas repetidas dentro de los grupos. Se puede estimar una "gran" interceptar, pero la cuenta de la heterogeneidad suponiendo que el clúster específico intercepta tienen algunos mean0 distribución normal. Las intersecciones se calcula de forma iterativa y se utilizan para actualizar el modelo de efectos hasta que la convergencia se logra (el registro de probabilidad o una aproximación a ella-es maximizada). El modelo mixto es muy fácil de imaginar, pero matemáticamente la probabilidad es muy complejo y propenso a problemas con las singularidades locales, minimae, y límite de puntos (odds ratio = 0 o infinito). Modelos mixtos no tienen cuadrática de las probabilidades como canónica GLMs.

Por desgracia, Venerables y Ripley no invertir mucho en el diagnóstico de convergen-no como el tuyo. Es prácticamente imposible incluso especulan en la gran cantidad de posibles errores que dan lugar a un mensaje. Considerar, entonces, los tipos de diagnósticos yo uso a continuación:

  1. Cuántas observaciones hay por el clúster?
  2. ¿Cuáles son los resultados de un marginal ajuste del modelo mediante GEE?
  3. ¿Qué es la corte de los racimos? Es dentro de clúster de la heterogeneidad cerca de la entre el clúster de la heterogeneidad?
  4. Ajuste de 1-paso estimador y mirar a la estimación de efectos aleatorios. Son aproximadamente normal?
  5. Ajuste el Bayesiano modelo mixto y mirar en la parte posterior de la distribución de los efectos fijos. Ellos no parecen tener una distribución aproximadamente normal?
  6. Mirar a un panel de la trama de los clusters que muestra la exposición o regresor de intereses en contra de los resultados mediante una más suave. Son las tendencias consistentes y claros o hay muchas maneras posibles de que tales tendencias pueden explicarse? (por ejemplo, qué es el "riesgo" entre los no expuestos los sujetos, hace la exposición aparecen de protección o perjudicial?)
  7. Es posible restringir la muestra a los sujetos sólo con un número suficiente de observaciones por persona (es decir, n=5 y n=10) para estimar el "ideal" efecto del tratamiento?

Alternativamente, usted puede considerar algunos de los diferentes enfoques de modelización:

  1. Hay pocos grupos o puntos de tiempo que usted puede usar un efecto fijo (como los indicadores de grupo o de un polinomio el efecto del tiempo) para modelar el nivel de clúster/autorregresivos heterogeneidad?
  2. Es un marginal modelo adecuado (mediante una GEE para mejorar la eficiencia del error estándar de estimación, pero aún utilizando sólo los efectos fijos)
  3. Podría un modelo Bayesiano con un informativo antes en el de efectos aleatorios mejorar la estimación?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X