7 votos

¿Son independientes las mediciones realizadas en el mismo paciente?

Actualmente trabajo en la clasificación de enfermedades pulmonares mediante espirometría. Se trata de un procedimiento en el que el paciente sopla aire en un tubo y nosotros recogemos el volumen de aire, la presión, etc., para obtener los parámetros espirométricos.

Mi pregunta es : Si realizo la espirometría en el mismo paciente tres veces, ¿puedo considerar estos tres exámenes, en el mismo día, como tres puntos de datos diferentes en mi conjunto de entrenamiento o prueba o es mejor promediar los resultados y considerar sólo un punto de datos? Si el paciente acude un día diferente, ¿puedo considerar que estos exámenes son independientes?

Creo que está bien considerar que los exámenes son datos diferentes, pero me gustaría escuchar otras opiniones.

2 votos

FWIW, para la espirometría el estándar de la industria es ejecutar cada paciente 3x. Si las medidas varían en <10%, se considera una buena prueba. La mayoría aboga por promediar las mediciones, pero una minoría aboga por utilizar la mejor bajo la teoría de que es una medida más precisa de lo que pueden hacer sus pulmones. Desde un punto de vista estadístico, cualquiera de las dos mediciones es buena siempre que se utilice el mismo método para todos, y utilizar la media supone una reducción del 58% en el error de medición con respecto a la mejor. No existe una tendencia apreciable, excepto en el caso de los pacientes con EPOC, ya que el resoplido y el soplido les lleva a despejar las vías respiratorias.

0 votos

@gung: Wow. Esto es un conocimiento impresionante y muy inesperado.

11voto

Zizzencs Puntos 1358

Definitivamente son tres puntos de datos diferentes, pero también definitivamente no son independientes (ya sean del mismo día o de días diferentes). Lo que deba hacer al respecto depende de los objetivos de su análisis, pero es probable que un modelo multinivel sea una buena opción. También es posible promediar los puntos, pero esto reduce la variabilidad y elimina la posibilidad de observar las tendencias a lo largo del tiempo.

8voto

icelava Puntos 548

Coincido en gran parte con la respuesta de @PeterFlom. En mi opinión, no deberías promediar tus datos (básicamente estás tirando a la basura 2/3 de tu información, ¿por qué querrías hacer eso?), pero definitivamente deberías tener en cuenta el hecho de que las mediciones en el mismo paciente tenderán a estar más cerca entre sí que las mediciones en diferentes pacientes. En una situación así, suelo recomendar modelos lineales mixtos, que son un ejemplo sencillo de los modelos multinivel que recomienda @PeterFlom.

En concreto, se utilizaría un modelo lineal mixto generalizado. La función de enlace sería logística, como en la regresión logística "ordinaria". Sin embargo, la forma funcional incluiría múltiples observaciones de cada participante, modeladas por un efecto aleatorio, igual que en los modelos lineales mixtos "ordinarios", $y∼F(Xβ+Zγ)$ . En R, puede ajustar esto mediante glmer() en la función lme4 utilizando la familia binomial. Para la predicción, podría utilizar una sola medida.

Por supuesto, es difícil saber si un modelo mixto predice mejor que un modelo no mixto en un contexto concreto. Lo que hace el modelo mixto es tener en cuenta la variabilidad intrapersonal. Si nos limitamos a promediar los tres puntos de datos originales, perdemos toda la variabilidad entre mediciones, por lo que seremos demasiado optimistas sobre nuestra capacidad de predicción a partir de una única observación nueva.

Si, por el contrario, se limita a arrojar todas las observaciones sin tener en cuenta la agrupación, volverá a ser demasiado optimista, ya que todos los errores estándar se reducirán. Piense en lo que pasaría si empezara con una sola observación por participante, digamos 100 puntos de datos... y luego simplemente copiara cada observación 100 veces. Terminaría con 10.000 "observaciones" y errores estándar mucho más pequeños que con los datos originales, aunque no hubiera introducido ninguna nuevo información.

Además, los modelos mixtos permiten modelizar otros factores de agrupación, como la ubicación, sus características demográficas específicas, su personal, las características del diagnosticador, etc. Por tanto, son mucho más generales que los promedios.

0 votos

(-1) El OP escribió que su objetivo es "la clasificación de las enfermedades pulmonares utilizando la espirometría". Su respuesta es sobre el modelado de los resultados de la espirometría como DV, pero lo que OP quería es utilizar los resultados de la espirometría como IV para clasificar las enfermedades....

1 votos

@amoeba: Creo que has malinterpretado mi respuesta (y posiblemente también las otras que has votado a la baja). No hablé de modelar los resultados de la espirometría como un VD, sino como un IV - con el reto de que las mediciones están correlacionadas para cada participante. Mi sugerencia fue que el OP no debería promediar las tres mediciones y utilizar el promedio como un IV, sino utilizar las tres mediciones como un IV y tener en cuenta la dependencia entre las múltiples mediciones de cada participante utilizando modelos mixtos. Por favor, reconsidere su downvote en mi y las otras respuestas.

1 votos

Estaré encantado de revertir mi downvote, pero a ver si lo entiendo. Digamos que queremos predecir una sola categórica $y$ (sano/enfermo) mediante un conjunto de observaciones espirométricas $\mathbf{X}$ (volumen de aire, presión, etc.). Supongo que te refieres a un modelo de regresión logística (¿verdad?), $y\sim F(\boldsymbol{\beta} \mathbf{X})$ . Ahora para cada participante tenemos tres conjuntos de medidas de espirometría, $\mathbf{X}^{(i)}$ con $i$ de 1 a 3. ¿Cómo se incluye esto en el glm? No estoy familiarizado con los modelos mixtos de clasificación, por eso (probablemente) me he confundido. Si es así, pido disculpas.

5voto

Brayn Puntos 671

Los tres exámenes son diferentes puntos de datos. Aunque son observaciones claramente no independientes (ni aleatorias) de todos los exámenes posibles en su población de interés, al menos para cualquier análisis que pueda imaginar.

Otros han hecho hincapié en que puede hacer bien en incluir esos puntos de datos en su análisis (puesto que ya los tiene), como simples réplicas dentro del paciente [un diseño anidado] o incluyendo "tiempo/visita" como una variable de interés absoluta (por ejemplo, fecha) o relativa (número de visita) [algún tipo de diseño de medidas repetidas], si es interesante. Estoy de acuerdo en que éste es el escenario más interesante (y probable).

Sin embargo , puede que no sea necesario, pague por una mayor complejidad o mejore sus conclusiones si sólo le interesa en las variables entre sujetos. Supongamos que sólo le interesan las diferencias entre hombres y mujeres, o que desea explicar el volumen de aire en función de la edad del paciente. Como sabes que no puedes caracterizar adecuadamente a un paciente de un solo golpe (porque las medidas resultan variables incluso para el mismo paciente en el mismo momento), entonces tomas varias medidas y las promedias. No te importa esa variación, es inevitable; sólo quieres acercarte lo más posible al valor "verdadero" (medio) para ese paciente (en ese momento). Este mayo ser el análisis más razonable.

[Comprobar este documento para una buena lectura sobre la simplicidad frente a la complejidad en los análisis estadísticos].

0 votos

Gracias por el enlace a un buen artículo, ¡es un buen argumento!

1voto

gauss Puntos 110

De acuerdo con las otras respuestas (no, estas observaciones no son ciertamente independientes, así que ¿qué hacer al respecto)....

Pero, ¿quiere utilizar esta información para predecir otras variables? Muchas de las sugerencias hasta ahora parecen suponer que desea utilizar la espirometría como variable dependiente y, por lo tanto, modelizar el error es más sencillo (utilizando un modelo multinivel). Si por el contrario desea utilizar las medidas de espirometría como una variable independiente, le convendría utilizar un modelo de análisis factorial confirmatorio con las 3 medidas repetidas modeladas como indicadores de una única variable latente subyacente. La varianza de la variable latente subyacente es la que comparten las tres medidas y, por tanto, refleja mejor lo que realmente se busca (en comparación con tomar la media, por ejemplo).

1 votos

No estoy seguro de que el análisis factorial sea útil en este caso: Supongo que el OP quería utilizar el clasificador para clasificar la enfermedad dada una única medición de espirometría de un nuevo paciente, sin esperar a recoger tres mediciones primero (por lo que no podría aplicar el AF en los datos de prueba reales).

0voto

Aksakal Puntos 11351

Las mediciones pueden ser independientes o no. si describe el valor medido como $y_t=x_t+\varepsilon_t$ donde $x_t$ - valor verdadero, y $\varepsilon_t$ - error de medición, entonces independencia significa que $cov(\varepsilon_t,\varepsilon_{t-i})=0$ para todos los tiempos. esto puede o no ser cierto. si tiene dos mediciones una inmediatamente después de la otra, entonces lo más probable es que no sea cierto. si dos mediciones estuvieron separadas por el tiempo pero se realizaron compre el mismo técnico de nuevo esto puede no ser cierto. etc.

Por otro lado, debe ser posible configurar la medición de forma que $\varepsilon_t$ serían independientes entre sí y el $x_t$ .

$y_t$ definitivamente no son independientes a través de $x_t$ correlaciones, pero eso no es lo que se entiende por independencia

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X