Coincido en gran parte con la respuesta de @PeterFlom. En mi opinión, no deberías promediar tus datos (básicamente estás tirando a la basura 2/3 de tu información, ¿por qué querrías hacer eso?), pero definitivamente deberías tener en cuenta el hecho de que las mediciones en el mismo paciente tenderán a estar más cerca entre sí que las mediciones en diferentes pacientes. En una situación así, suelo recomendar modelos lineales mixtos, que son un ejemplo sencillo de los modelos multinivel que recomienda @PeterFlom.
En concreto, se utilizaría un modelo lineal mixto generalizado. La función de enlace sería logística, como en la regresión logística "ordinaria". Sin embargo, la forma funcional incluiría múltiples observaciones de cada participante, modeladas por un efecto aleatorio, igual que en los modelos lineales mixtos "ordinarios", $y∼F(Xβ+Zγ)$ . En R, puede ajustar esto mediante glmer() en la función lme4 utilizando la familia binomial. Para la predicción, podría utilizar una sola medida.
Por supuesto, es difícil saber si un modelo mixto predice mejor que un modelo no mixto en un contexto concreto. Lo que hace el modelo mixto es tener en cuenta la variabilidad intrapersonal. Si nos limitamos a promediar los tres puntos de datos originales, perdemos toda la variabilidad entre mediciones, por lo que seremos demasiado optimistas sobre nuestra capacidad de predicción a partir de una única observación nueva.
Si, por el contrario, se limita a arrojar todas las observaciones sin tener en cuenta la agrupación, volverá a ser demasiado optimista, ya que todos los errores estándar se reducirán. Piense en lo que pasaría si empezara con una sola observación por participante, digamos 100 puntos de datos... y luego simplemente copiara cada observación 100 veces. Terminaría con 10.000 "observaciones" y errores estándar mucho más pequeños que con los datos originales, aunque no hubiera introducido ninguna nuevo información.
Además, los modelos mixtos permiten modelizar otros factores de agrupación, como la ubicación, sus características demográficas específicas, su personal, las características del diagnosticador, etc. Por tanto, son mucho más generales que los promedios.
2 votos
FWIW, para la espirometría el estándar de la industria es ejecutar cada paciente 3x. Si las medidas varían en <10%, se considera una buena prueba. La mayoría aboga por promediar las mediciones, pero una minoría aboga por utilizar la mejor bajo la teoría de que es una medida más precisa de lo que pueden hacer sus pulmones. Desde un punto de vista estadístico, cualquiera de las dos mediciones es buena siempre que se utilice el mismo método para todos, y utilizar la media supone una reducción del 58% en el error de medición con respecto a la mejor. No existe una tendencia apreciable, excepto en el caso de los pacientes con EPOC, ya que el resoplido y el soplido les lleva a despejar las vías respiratorias.
0 votos
@gung: Wow. Esto es un conocimiento impresionante y muy inesperado.