8 votos

Discutiendo de regresión binomial y estrategias de modelado

Hoy tengo una pregunta acerca de la binomial/ regresión logística, basado en un análisis de un grupo en mi departamento han hecho y se fueron en busca de comentarios. He hecho hasta el siguiente ejemplo para proteger su anonimato, pero que estaban dispuestos a ver las respuestas.

En primer lugar, el análisis comenzó con un simple 1 o 0 binomio respuesta (por ejemplo, la supervivencia de una época de cría a la siguiente) y el objetivo era el modelo de esta respuesta como una función de co-variables.

Sin embargo, múltiples mediciones de co-variables estaban disponibles para algunas personas, pero no para otros. Por ejemplo, supongamos que la variable x es una medida de la tasa metabólica durante el parto y los individuos varían en el número de hijos que tienen (por ejemplo, la variable x se midió 3 veces para Un individuo, pero sólo una vez por persona B). Este desequilibrio no es debido a la estrategia de muestreo de los investigadores per se, sino que refleja las características de la población a la que fueron muestreo; algunas personas tienen más descendencia que otros.

También debo señalar que la medición de la binomial 0\1 respuesta entre la mano de obra de los eventos no fue posible debido a que el intervalo entre estos eventos fue bastante corto. De nuevo, imaginar la especie en las preguntas tiene una corta temporada de cría, pero puede dar a luz a más de una descendencia durante la temporada.

Los investigadores eligieron para ejecutar un modelo en el que se utiliza la media de la variable x como una covariable y el número de descendientes de un individuo dio a luz a otra covariable.

Ahora, yo no estaba muy interesado en este enfoque para un número de razones

1)Tomando el promedio de x significa que se pierda la información en el dentro-de-la variabilidad individual de x.

2) La media es de por sí una estadística, así poniendo en el modelo terminamos haciendo estadísticas sobre las estadísticas.

3) El número de descendientes de un individuo está en el modelo, pero también se utiliza para calcular la media de la variable x, que creo que podría causar problemas.

Entonces, mi pregunta es ¿cómo iba a ir la gente sobre el modelado de este tipo de datos?

Por el momento, probablemente me ejecución de modelos independientes para las personas que tuvieron una descendencia, entonces para los individuos que tuvo dos descendientes etc. Además, yo no usaría la media de la variable x y sólo tiene que utilizar los datos en bruto para cada nacimiento, pero no estoy convencido de que este es mucho mejor.

Gracias por su tiempo

(PS: pido disculpas de que su muy larga la pregunta, y espero que el ejemplo es claro)

4voto

Zizzencs Puntos 1358

Creo que se podría explorar una relación no lineal modelo mixto; esto debería permitir el uso de los datos de forma efectiva. Pero si relativamente pocos temas tienen varias medidas, es que no importa mucho y puede que no funcione bien (creo que podría haber problemas de convergencia).

Si usted está usando SAS usted podría utilizar PROC GLIMMIX; si el uso de R creo lme4 debe ser útil.

3voto

patfla Puntos 1

Suena como que usted está en un poco de un dilema, ya que sólo tiene 1 variable de respuesta para cada medición individual. Yo estaba inicialmente iba a recomendar un enfoque de múltiples niveles. Pero para que funcione se necesita para observar la respuesta en el nivel más bajo - que no - que observe su respuesta a nivel individual (la cual sería el nivel 2 en un MLM)

1)Tomando el promedio de x significa que se pierda la información en el dentro-de-la variabilidad individual de x.

Se está perdiendo la variabilidad de la covariable x, pero esto sólo importa si el resto de la información contenida en X está relacionado con la respuesta. Nada hay que dejar de poner la varianza de X en como covariable.

2) La media es de por sí una estadística, así poniendo en el modelo terminamos haciendo estadísticas sobre las estadísticas.

Un estadístico es una función de los datos observados. Por lo que cualquier covariable es una "estadística". Así que ya lo están haciendo "las estadísticas sobre las estadísticas de" te guste o no. Sin embargo, sí hace una diferencia en cómo se debe interpretar el coeficiente de la pendiente - como un valor medio, y no un valor en el individuo de nacimiento. Si usted no se preocupan por los nacimientos individuales, entonces esto importa poco. Si lo hace, entonces este enfoque puede ser engañosa.

3) El número de descendientes de un individuo está en el modelo, pero también se utiliza para calcular la media de la variable x, que creo que podría causar problemas.

Sólo importa si la media de X es funcionalmente/determinista relacionados con el número de la descendencia. Una manera en que esto puede suceder es que si el valor de X es el mismo para cada persona que tenía el mismo número de nacimientos. Generalmente este no es el caso.

Puede especificar un modelo que incluye cada valor de X como una covariable. Pero esto sería, probablemente, involucrar a algunos de los nuevos metodológica de la investigación de su parte, me imagino. Su función de probabilidad habría de ser diferente para diferentes personas, debido al diferente número de mediciones dentro de los individuos. No creo multi-nivel de modelado se aplica en este caso conceptualmente. Esto es simplemente porque los partos no son un subconjunto o muestra dentro de los individuos. A pesar de las matemáticas puede ser el mismo.

Una manera de incorporar esta estructura es crear un modelo de la forma:

$$(Y_{ij}|x_{ij}) \sim Bin(Y_{ij}|n_{ij},p_{ij})$$

Donde $Y_{ij}$ es el binomio de la respuesta individual de la $i$ $j$ indica el número de nacimientos, $x_{ij}$ es el covariables, y $n_{ij}$ es el número de individuos con los mismos valores de la covariable, y también tenía el mismo número de nacimientos. $p_{ij}$ es la probabilidad de que usted normalmente el modelo como:

$$g(p_{ij}) = x_{ij}^{T}\beta$$

Para algunos monotónica/función invertible $g(.)$. El "difícil" parte viene porque la dimensión de la $x_{ij}$ varía con $j$. El logaritmo de la probabilidad en este caso es:

$$L=L(\beta)=\sum_{j\in B}\Bigg[\sum_{i=1}^{N_{j}} log[Bin(Y_{ij}|n_{ij},g^{-1}(x_{ij}^{T}\beta))]\Bigg]$$

Donde $B$ es sólo el conjunto de los número de nacimientos que tiene disponibles en su conjunto de datos. Para maximizar es probable que sea una tarea trivial, y usted probablemente no va a obtener la costumbre NIÑAS ecuaciones de hacer un desarrollo en serie de taylor expansiones sobre el presupuesto actual. Serie de Taylor es la forma en que me iba a ir de aquí - yo simplemente no tienen la energía para ejecutar a través del proceso en este momento. Le sugiero que trate de volver a organizar su respuesta, por lo que parece un "ordinario" binomio GLM. Esto permitirá que usted tome ventaja de la norma de software disponible.

Lo que si puedo decir es que cuando se diferencian con respecto a una beta que depende de la $j$ (por ejemplo, el coeficiente de la tasa metabólica para el tercer nacimiento), algunos de los términos en este resumen se caerá. Esto es, básicamente, la probabilidad de "diciendo" que ciertos comentarios no aportan nada a la estimación de ciertos parámetros (por ejemplo, individuos que dan a luz a dos o menos descendencia no aportan nada a la estimación de la pendiente de la tasa metabólica para el tercer nacimiento).

Así que en resumen, su intuición es en terreno, al sugerir que algo se ha perdido. Sin embargo, el precio de la "pureza" podría ser alto, especialmente si usted necesita escribir su propio algoritmo para obtener las estimaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X