4 votos

Construcción de matriz de diseño de regresión multinivel

Una formulación común de multinivel/jerárquica de los modelos de regresión es $y = Xb + Zc + e$ donde $X$ $n \times p$ matriz de $p$ nivel individual predictores, $Z$ $n \times q$ matriz de $q$ nivel de grupo de predictores, $y$ $n \times 1$ vector de observaciones en el nivel individual y $e$ es el término de error. Supongamos que hay $J$ grupos y el $q$ nivel de grupo de predictores son continuos. Me gustaría entender cómo construir un diseño completo de la matriz a partir de esta formulación, por ejemplo, para aplicar un gradiente de descenso algoritmo de optimización.

Es esta formulación equivalente a un diseño de la matriz construida como: $p$ columnas para el nivel individual de los predictores, $J$ columnas de variables indicadoras para la $J$ grupos (variando intercepta), $pJ$ columnas para la interacción entre el grupo de indicadores y el nivel individual de los predictores (variables de pistas), y $q$ columnas para el nivel de grupo de predictores (es decir, las columnas con valores repetidos por dentro-grupo de observaciones).

Hay formas alternativas de construir el diseño de la matriz cuando el número de grupos es grande ($J>10000$) para reducir el número de parámetros?

2voto

Rebecca Puntos 51

No saber sobre el tipo de datos que está utilizando, pero después de haber sido atrapados en situaciones similares en el pasado:

1) Si los grupos son sub-miembros (como sería de malla de bloques en un censo), entonces puede ser barato para definir una jerarquía de grupos más grandes. Para usar la analogía de un censo, esto dependerá de si usted piensa que no son lo suficientemente informativo diferencias en la malla de bloques dentro de la misma zona de gobierno local, o si las diferencias entre las áreas del gobierno local sería suficiente.

2) el problema puede no ser del todo malo (aparte de la computación), siempre y cuando cada grupo tiene una cantidad suficiente de observaciones. El capítulo 18 de Gelman y de la Colina del libro pasa a través de este de forma bastante intuitiva. Esencialmente, si cada uno de los grupos tiene un par (o cero) de las observaciones, entonces usted acaba de obtener la estimación combinada; la más observaciones del grupo, el más alejado de la estimación combinada de su estimación del parámetro podría ser.

3) Recordemos que necesita una ponderación vector, así, a cuenta de las posibles diferencias en el número de observaciones en cada grupo.

4) me gustaría considerar la posibilidad de reducir la cantidad de diferentes pistas, ya que esto añade una gran cantidad de columnas. Aunque, de nuevo, esto depende de su pregunta de investigación.

Buena suerte!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X