Processing math: 100%

47 votos

¿Es válido incluir una medida de referencia como variable de control cuando se prueba el efecto de una variable independiente sobre las puntuaciones de cambio?

Intento realizar una regresión OLS:

  • VD: Cambio de peso en un año (peso inicial - peso final)

  • IV: Si se hace o no ejercicio.

Sin embargo, parece razonable que las personas más pesadas pierdan más peso por unidad de ejercicio que las más delgadas. Por lo tanto, quería incluir una variable de control:

  • CV: Peso inicial de partida.

Sin embargo, ahora peso inicial se utiliza TANTO para calcular la variable dependiente COMO para la variable de control.

¿Esto está bien? ¿Viola esto un supuesto de OLS?

33voto

Judioo Puntos 625

Para responder a su pregunta literal, "¿Es válido incluir una medida de referencia como variable de control cuando se prueba el efecto de una variable independiente sobre las puntuaciones de cambio?", la respuesta es no . La respuesta es no, porque por construcción la puntuación inicial está correlacionada con el término de error cuando se utiliza la puntuación de cambio como variable dependiente, por lo que el efecto estimado de la puntuación inicial sobre la puntuación de cambio no es interpretable.

Utilizando

  • Y1 como peso inicial
  • Y2 como el peso final
  • ΔY como el cambio de peso (es decir ΔY=Y2Y1 )
  • T como asignado al azar tratamiento, y
  • X como otros factores exógenos que afectan al peso (por ejemplo, otras variables de control que están relacionadas con el resultado pero que no deberían estar correlacionadas con el tratamiento debido a la asignación aleatoria)

Se tiene entonces un modelo de regresión de ΔY en T y X ;

ΔY=β1T+β2X+e

Lo que por definición equivale a;

Y2Y1=β1T+β2X+e

Ahora bien, si se incluye la línea de base como covariable, se debería ver un problema, en el sentido de que se tiene la Y1 término en ambos lados de la ecuación. Esto demuestra que β3Y1 es ininterpretable, porque es intrínsecamente correlacionado con el término de error.

Y2Y1=β1T+β2X+β3Y1+eY2=β1T+β2X+β3Y1+(e+Y1)

Ahora bien, parte de la confusión en las distintas respuestas parece provenir del hecho de que diferentes modelos darán resultados idénticos para el efecto del tratamiento , β1T en mi formulación anterior. Así pues, si se comparara el efecto del tratamiento para el modelo que utiliza las puntuaciones de cambio como variable dependiente con el modelo que utiliza los "niveles" (con cada modelo incluyendo la línea de base Y1 como covariable), la interpretación del efecto del tratamiento sería la misma. En los dos modelos siguientes β1T serán las mismas, y también las inferencias basadas en ellas (Bruce Weaver tiene algunas Código SPSS publicado demostrando la equivalencia también).

Change Score Model:Y2Y1=β1T+β2X+β3Y1+eLevels Model:Y2=β1T+β2X+β3Y1+e

Así que algunos argumentarán (como Félix tiene en este hilo, y como Bruce Weaver ha hecho en algunas discusiones sobre el Grupo Google de SPSS ) que, dado que los modelos dan como resultado el mismo efecto de tratamiento estimado, no importa cuál se elija. No estoy de acuerdo, porque la covariable de la línea de base en el modelo de puntuación del cambio no se puede interpretar, nunca se debe incluir la línea de base como covariable (independientemente de si el efecto del tratamiento estimado es el mismo o no). Así que esto plantea otra pregunta, ¿qué sentido tiene utilizar las puntuaciones de cambio como variables dependientes? Como ya señaló Félix también, el modelo que utiliza la puntuación de cambio como variable dependiente excluyendo la línea de base como covariable es diferente al modelo que utiliza los niveles. Para aclarar, los modelos posteriores darán efectos de tratamiento diferentes (especialmente en el caso de que el tratamiento esté correlacionado con la línea de base);

Change Score Model Without Baseline:Y2Y1=β1T+β2X+eLevels Model:Y2=β1T+β2X+β3Y1+e

Esto se ha señalado en la literatura anterior como la "Paradoja del Señor". Entonces, ¿qué modelo es el correcto? Bueno, en el caso de los experimentos aleatorios, yo diría que es preferible el modelo de niveles (aunque si se ha hecho un buen trabajo de aleatorización, el efecto medio del tratamiento debería ser muy parecido entre los modelos). Otros han señalado las razones por las que es preferible el modelo de niveles, La respuesta de Charlie hace una buena observación en el sentido de que se pueden estimar los efectos de interacción con la línea de base en el modelo de niveles (pero no se puede en el modelo de puntuación de cambio). Whuber en esta respuesta a una pregunta muy similar demuestra cómo las puntuaciones de cambio inducen correlaciones entre los diferentes tratamientos.

En las situaciones en las que el tratamiento no se asigna aleatoriamente, debe tenerse más en cuenta el modelo que utiliza las puntuaciones de cambio como variable dependiente. La principal ventaja del modelo de puntuaciones de cambio es que se controla cualquier predictor invariable en el tiempo del resultado. Así que digamos que en la formulación anterior, X es constante a lo largo del tiempo (por ejemplo, una predisposición genética a tener un determinado peso), y que X está correlacionada con el hecho de que un individuo decida hacer ejercicio (y X es inobservable). En ese caso, es preferible el modelo de puntuación del cambio. También en los casos en los que la selección para el tratamiento está correlacionada con el valor de referencia, el modelo de puntuación de cambios puede ser preferible. Paul Allison en su artículo, Las puntuaciones de cambio como variables dependientes en el análisis de regresión El libro "La vida en el mundo", que se publicó en el año 2000, da estos mismos ejemplos (e influyó en gran medida en mi perspectiva sobre el tema, por lo que sugiero encarecidamente su lectura).

Esto no quiere decir que las puntuaciones de cambio sean siempre preferibles en entornos no aleatorios. En el caso de que se espere que la línea de base tenga un efecto causal real sobre el peso posterior, se debe utilizar el modelo de niveles. En el caso de que se espere que la línea de base tenga un efecto causal, y la selección en el tratamiento esté correlacionada con la línea de base, el efecto del tratamiento se confunde con el efecto de la línea de base.

He ignorado la nota de Charlie de que el logaritmo del peso podría usarse como variable dependiente. Aunque no dudo que pueda ser una posibilidad, es algo non sequitur a la pregunta inicial. Otro pregunta ha discutido cuándo es apropiado utilizar los logaritmos de la variable (y éstos siguen siendo aplicables en este caso). Probablemente hay literatura previa sobre el tema que le ayudaría a orientarse sobre si usar el peso registrado es apropiado también.


Cita

Allison, Paul D. 1990. Puntuaciones de cambio como variables dependientes en el análisis de regresión . Metodología sociológica 20: 93-114. Versión pública en PDF .

28voto

dan90266 Puntos 609

La respuesta de Andy parece ser la visión de los economistas. Es una práctica aceptada en los ensayos clínicos ajustar casi siempre por la versión de referencia de la variable de respuesta, para aumentar enormemente la potencia. Dado que condicionamos las variables de referencia, no hay ningún "término de error" que se pueda confundir con el término de error general. El único problema sería si los errores de medición en la covariable de referencia se confunden con otra X, distorsionando el efecto de esa otra X. El método general preferido es ajustar por la línea de base y modelar la variable de respuesta, sin calcular el cambio. Una de las razones es que el cambio depende en gran medida de que la transformación de Y sea correcta, y que el cambio no se aplica a los modelos de regresión en general. Por ejemplo, si Y es ordinal, la diferencia entre dos variables ordinales ya no es ordinal. En cuanto a registrar o no registrar, eso sólo depende del modelo y de los supuestos generales de distribución de residuos.

9voto

ER17 Puntos 1

EDIT: El argumento de Andy W me ha convencido de dejar de lado el modelo C. He añadido otra posibilidad: Analizar el cambio con modelos de coeficientes aleatorios (también conocidos como modelos multinivel o modelos de efectos mixtos

Ha habido un gran debate científico sobre el uso de las puntuaciones de diferencia. Mis textos favoritos son Rogosa (1982, [1]) y Fitzmaurice, Laird y Ware (2004, [2])

En general, tiene tres posibilidades de analizar sus datos:

  • A) Tomar sólo la puntuación de la diferencia interindividual (la puntuación del cambio)
  • B) Tratar la medición posterior como VD y controlarla para la línea de base
  • C) Tomar la puntuación de la diferencia como VD y controlarla para la línea de base (ese es el modelo que sugirió). Debido a los argumentos de Andy W, dejé esta alternativa
  • D) Utilizando un enfoque multinivel/modelo de efectos mixtos, donde la línea de regresión se modela para cada participante y los participantes se tratan como unidades de nivel 2.

Los modelos A y B pueden producir resultados muy diferentes si la línea de base está correlacionada con la puntuación de cambio (por ejemplo, las personas más pesadas tienen más pérdida de peso), y/o la asignación del tratamiento está correlacionada con la línea de base.

Si quiere saber más sobre estos temas, consulte los documentos citados, o aquí y aquí .

También se ha realizado un reciente estudio de simulación [3] que compara empíricamente las condiciones en las que A o B son preferibles.

Para diseños completamente equilibrados sin valores perdidos, el Modelo D debería ser equivalente al Modelo A. Sin embargo, le da más información sobre la variabilidad entre personas, se extiende fácilmente a más puntos de medición, y tiene buenas propiedades en presencia de datos desequilibrados y/o valores perdidos.

Como resultado final: En su caso, yo analizaría las medidas posteriores controladas por la línea de base (Modelo B).

[1] Rogosa, D., Brandt, D., y Zimowski, M. (1982). A growth curve approach to the measurement of change. Psychological Bulletin, 92, 726-748.

[2] Fitzmaurice, G. M., Laird, N. M., & Ware, J. H. (2004). Applied longitudinal analysis. Hoboken, NJ: Wiley.

[3] Petscher, Y., & Schatschneider, C., 2011. Un estudio de simulación sobre el rendimiento de la diferencia simple y las puntuaciones ajustadas por covarianza en diseños experimentales aleatorios. Journal of Educational Measurement, 48, 31-43.

8voto

simmosn Puntos 304

Podemos alterar ligeramente el razonamiento de @ocram para tener E[w1w0X,w0]=β0+xβ+w0γE[w1X,w0]=β0+xβ+w0(γ+1)

Así que, si este es el modelo correcto Si se dice que la diferencia depende del peso, implica que el valor final depende del valor inicial con un coeficiente que puede ser cualquiera. Si se realiza una regresión de la diferencia sobre x y w0 o el peso final en las mismas variables debería dar los mismos coeficientes en todo menos w0 . Pero, si este modelo no es exactamente correcto, estas regresiones también darán resultados diferentes en los demás coeficientes.

Tenga en cuenta que esta configuración implica que el peso inicial predice el diferencia en pesos, no el impacto del tratamiento . Esto requeriría un término de interacción, tal vez E[w1w0X,w0]=β0+(xw0)β+w0γ.

Otro enfoque sería calcular log(w1)log(w0)r; aquí, r es la tasa de crecimiento del peso. Este podría ser su resultado. Sus coeficientes en x te diría cómo se relacionan estos predictores con los cambios de proporción en el peso. Esto "controla" el peso inicial diciendo que, por ejemplo, un régimen de ejercicio que reduce el peso en un 10% (un coeficiente de 0,1 multiplicado por 100%) para alguien que pesa 130 libras reduce el peso en 13 libras, mientras que el programa reduce el peso de un participante de 200 libras en 20 libras. En este caso, puede que no sea necesario incluir el peso inicial (o su registro) en el lado derecho.

Todavía puede ser necesario un término de interacción si cree que el impacto del programa depende del peso inicial. Si utiliza w0 en el término de interacción, entonces el programa se asociaría con un w0β1 cambio en la tasa de crecimiento del peso. Cada libra más pesada que una persona tenía al comienzo del programa conduce a un β1 aumento de la variación de la tasa de crecimiento (se trata de la derivada parcial cruzada del valor esperado con respecto al tratamiento y al peso inicial).

Si utiliza log(w0) en el término de interacción, el impacto del programa aumenta en β1/w0 por cada kilo adicional de peso que tenía el participante al inicio del programa.

Como puede ver, los resultados cruzados de los términos de interacción pueden ser un poco difíciles de interpretar, pero pueden captar un impacto que le interese.

4voto

andrew.n Puntos 111

Glymour et al. (2005) abordaron el uso del ajuste de la línea de base al analizar una puntuación de cambio. Si el cambio en el estado de salud precede a la evaluación de la línea de base o hay un gran error de medición en la variable dependiente, encuentran que puede surgir un sesgo si el modelo de regresión que utiliza la puntuación de cambio como variable dependiente incluye una covariable de la línea de base. La respuesta de Frank Harrell "El único problema sería si los errores de medición en la covariable de la línea de base se confunden con otra X, distorsionando el efecto de esa otra X" puede estar reflejando el mismo sesgo que aborda Glymour.

Glymour (2005) "¿Cuándo es útil el ajuste de la línea de base en el análisis del cambio? An Example with Education and Cognitive Change". American Journal of Epidemiology 162:267-278

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X