Para responder a su pregunta literal, "¿Es válido incluir una medida de referencia como variable de control cuando se prueba el efecto de una variable independiente sobre las puntuaciones de cambio?", la respuesta es no . La respuesta es no, porque por construcción la puntuación inicial está correlacionada con el término de error cuando se utiliza la puntuación de cambio como variable dependiente, por lo que el efecto estimado de la puntuación inicial sobre la puntuación de cambio no es interpretable.
Utilizando
- Y1 como peso inicial
- Y2 como el peso final
- ΔY como el cambio de peso (es decir ΔY=Y2−Y1 )
- T como asignado al azar tratamiento, y
- X como otros factores exógenos que afectan al peso (por ejemplo, otras variables de control que están relacionadas con el resultado pero que no deberían estar correlacionadas con el tratamiento debido a la asignación aleatoria)
Se tiene entonces un modelo de regresión de ΔY en T y X ;
ΔY=β1T+β2X+e
Lo que por definición equivale a;
Y2−Y1=β1T+β2X+e
Ahora bien, si se incluye la línea de base como covariable, se debería ver un problema, en el sentido de que se tiene la Y1 término en ambos lados de la ecuación. Esto demuestra que β3Y1 es ininterpretable, porque es intrínsecamente correlacionado con el término de error.
Y2−Y1=β1T+β2X+β3Y1+eY2=β1T+β2X+β3Y1+(e+Y1)
Ahora bien, parte de la confusión en las distintas respuestas parece provenir del hecho de que diferentes modelos darán resultados idénticos para el efecto del tratamiento , β1T en mi formulación anterior. Así pues, si se comparara el efecto del tratamiento para el modelo que utiliza las puntuaciones de cambio como variable dependiente con el modelo que utiliza los "niveles" (con cada modelo incluyendo la línea de base Y1 como covariable), la interpretación del efecto del tratamiento sería la misma. En los dos modelos siguientes β1T serán las mismas, y también las inferencias basadas en ellas (Bruce Weaver tiene algunas Código SPSS publicado demostrando la equivalencia también).
Change Score Model:Y2−Y1=β1T+β2X+β3Y1+eLevels Model:Y2=β1T+β2X+β3Y1+e
Así que algunos argumentarán (como Félix tiene en este hilo, y como Bruce Weaver ha hecho en algunas discusiones sobre el Grupo Google de SPSS ) que, dado que los modelos dan como resultado el mismo efecto de tratamiento estimado, no importa cuál se elija. No estoy de acuerdo, porque la covariable de la línea de base en el modelo de puntuación del cambio no se puede interpretar, nunca se debe incluir la línea de base como covariable (independientemente de si el efecto del tratamiento estimado es el mismo o no). Así que esto plantea otra pregunta, ¿qué sentido tiene utilizar las puntuaciones de cambio como variables dependientes? Como ya señaló Félix también, el modelo que utiliza la puntuación de cambio como variable dependiente excluyendo la línea de base como covariable es diferente al modelo que utiliza los niveles. Para aclarar, los modelos posteriores darán efectos de tratamiento diferentes (especialmente en el caso de que el tratamiento esté correlacionado con la línea de base);
Change Score Model Without Baseline:Y2−Y1=β1T+β2X+eLevels Model:Y2=β1T+β2X+β3Y1+e
Esto se ha señalado en la literatura anterior como la "Paradoja del Señor". Entonces, ¿qué modelo es el correcto? Bueno, en el caso de los experimentos aleatorios, yo diría que es preferible el modelo de niveles (aunque si se ha hecho un buen trabajo de aleatorización, el efecto medio del tratamiento debería ser muy parecido entre los modelos). Otros han señalado las razones por las que es preferible el modelo de niveles, La respuesta de Charlie hace una buena observación en el sentido de que se pueden estimar los efectos de interacción con la línea de base en el modelo de niveles (pero no se puede en el modelo de puntuación de cambio). Whuber en esta respuesta a una pregunta muy similar demuestra cómo las puntuaciones de cambio inducen correlaciones entre los diferentes tratamientos.
En las situaciones en las que el tratamiento no se asigna aleatoriamente, debe tenerse más en cuenta el modelo que utiliza las puntuaciones de cambio como variable dependiente. La principal ventaja del modelo de puntuaciones de cambio es que se controla cualquier predictor invariable en el tiempo del resultado. Así que digamos que en la formulación anterior, X es constante a lo largo del tiempo (por ejemplo, una predisposición genética a tener un determinado peso), y que X está correlacionada con el hecho de que un individuo decida hacer ejercicio (y X es inobservable). En ese caso, es preferible el modelo de puntuación del cambio. También en los casos en los que la selección para el tratamiento está correlacionada con el valor de referencia, el modelo de puntuación de cambios puede ser preferible. Paul Allison en su artículo, Las puntuaciones de cambio como variables dependientes en el análisis de regresión El libro "La vida en el mundo", que se publicó en el año 2000, da estos mismos ejemplos (e influyó en gran medida en mi perspectiva sobre el tema, por lo que sugiero encarecidamente su lectura).
Esto no quiere decir que las puntuaciones de cambio sean siempre preferibles en entornos no aleatorios. En el caso de que se espere que la línea de base tenga un efecto causal real sobre el peso posterior, se debe utilizar el modelo de niveles. En el caso de que se espere que la línea de base tenga un efecto causal, y la selección en el tratamiento esté correlacionada con la línea de base, el efecto del tratamiento se confunde con el efecto de la línea de base.
He ignorado la nota de Charlie de que el logaritmo del peso podría usarse como variable dependiente. Aunque no dudo que pueda ser una posibilidad, es algo non sequitur a la pregunta inicial. Otro pregunta ha discutido cuándo es apropiado utilizar los logaritmos de la variable (y éstos siguen siendo aplicables en este caso). Probablemente hay literatura previa sobre el tema que le ayudaría a orientarse sobre si usar el peso registrado es apropiado también.
Cita
Allison, Paul D. 1990. Puntuaciones de cambio como variables dependientes en el análisis de regresión . Metodología sociológica 20: 93-114. Versión pública en PDF .