Hoy tengo una pregunta acerca de la binomial/ regresión logística, basado en un análisis de un grupo en mi departamento han hecho y se fueron en busca de comentarios. He hecho hasta el siguiente ejemplo para proteger su anonimato, pero que estaban dispuestos a ver las respuestas.
En primer lugar, el análisis comenzó con un simple 1 o 0 binomio respuesta (por ejemplo, la supervivencia de una época de cría a la siguiente) y el objetivo era el modelo de esta respuesta como una función de co-variables.
Sin embargo, múltiples mediciones de co-variables estaban disponibles para algunas personas, pero no para otros. Por ejemplo, supongamos que la variable x es una medida de la tasa metabólica durante el parto y los individuos varían en el número de hijos que tienen (por ejemplo, la variable x se midió 3 veces para Un individuo, pero sólo una vez por persona B). Este desequilibrio no es debido a la estrategia de muestreo de los investigadores per se, sino que refleja las características de la población a la que fueron muestreo; algunas personas tienen más descendencia que otros.
También debo señalar que la medición de la binomial 0\1 respuesta entre la mano de obra de los eventos no fue posible debido a que el intervalo entre estos eventos fue bastante corto. De nuevo, imaginar la especie en las preguntas tiene una corta temporada de cría, pero puede dar a luz a más de una descendencia durante la temporada.
Los investigadores eligieron para ejecutar un modelo en el que se utiliza la media de la variable x como una covariable y el número de descendientes de un individuo dio a luz a otra covariable.
Ahora, yo no estaba muy interesado en este enfoque para un número de razones
1)Tomando el promedio de x significa que se pierda la información en el dentro-de-la variabilidad individual de x.
2) La media es de por sí una estadística, así poniendo en el modelo terminamos haciendo estadísticas sobre las estadísticas.
3) El número de descendientes de un individuo está en el modelo, pero también se utiliza para calcular la media de la variable x, que creo que podría causar problemas.
Entonces, mi pregunta es ¿cómo iba a ir la gente sobre el modelado de este tipo de datos?
Por el momento, probablemente me ejecución de modelos independientes para las personas que tuvieron una descendencia, entonces para los individuos que tuvo dos descendientes etc. Además, yo no usaría la media de la variable x y sólo tiene que utilizar los datos en bruto para cada nacimiento, pero no estoy convencido de que este es mucho mejor.
Gracias por su tiempo
(PS: pido disculpas de que su muy larga la pregunta, y espero que el ejemplo es claro)