10 votos

Es aceptable para ejecutar dos modelos lineales en el mismo conjunto de datos?

Para una regresión lineal con múltiples grupos (natural de los grupos definidos a priori) es aceptable para ejecutar dos modelos diferentes en el mismo conjunto de datos para contestar las siguientes dos preguntas?

  1. Cada grupo tiene un no-cero de la pendiente y de la no-cero interceptar y cuáles son los parámetros para cada uno dentro de un grupo de regresión?

  2. Está ahí, independientemente de su pertenencia a un grupo, un no-cero tendencia y no-cero interceptar y cuáles son los parámetros para este a través de grupos de regresión?

En R, el primer modelo sería lm(y ~ group + x:group - 1), de modo que los coeficientes estimados pueden ser directamente interpreta como el intercepto y la pendiente para cada grupo.El segundo modelo sería lm(y ~ x + 1).

La alternativa sería lm(y ~ x + group + x:group + 1), que se traduce en un complicado cuadro resumen de los coeficientes, dentro del grupo de las pendientes y las intersecciones tener que ser calculada a partir de las diferencias en las laderas y las intersecciones de alguna referencia. También tienes que cambiar el orden de los grupos y ejecutar el modelo de un segundo tiempo de todos modos con el fin de obtener un p-valor de la última diferencia entre los grupos (a veces).

Hace esto mediante dos modelos separados afectar negativamente a la inferencia en cualquier forma o este esta práctica estándar?

Para poner esto en contexto, consideramos que x es una dosis de la droga y los grupos de diferentes razas. Puede ser interesante conocer la relación dosis-respuesta para una carrera en particular, para un médico, o que las razas que el medicamento funciona en todas, pero también puede ser muy interesante, a veces para saber la relación dosis-respuesta para todo (humanos) de la población, independientemente de la raza por un oficial de salud pública. Este es sólo un ejemplo de cómo uno puede estar interesado en, tanto dentro del grupo y entre el grupo de regresiones por separado. Si una relación dosis-respuesta debe ser lineal no es importante.

2voto

Sean Hanley Puntos 2428

Permítanme empezar diciendo que creo que su primera pregunta y la primera R modelo son incompatibles el uno con el otro. En R, cuando escribimos una fórmula con -1 o +0, somos la supresión de la intersección. Por lo tanto, lm(y ~ group + x:group - 1) previene de ser capaz de decir si el intercepta significativamente diferentes de 0. En el mismo sentido, en sus siguientes dos modelos, th +1 es superfluo, la intersección se calcula automáticamente en R. yo le aconsejo que utilice la celda de referencia de codificación (también llamado 'dummy de codificación) para representar a sus grupos. Es decir, con $g$ grupos, crear $g-1$ nuevas variables, escoger un grupo como el predeterminado y asignar 0 a las unidades de ese grupo en cada una de las nuevas variables. A continuación, cada nueva variable se utiliza para representar la pertenencia a uno de los otros grupos; las unidades que estén dentro de un grupo determinado se indica con un 1 en la variable correspondiente y 0 en otro lugar. Cuando sus coeficientes son devueltas, si la intersección es "significativo", luego de su grupo por defecto tiene un valor distinto de cero interceptar. Por desgracia, el estándar de las pruebas de significación para los otros grupos no se decirte si son distintos de 0, sino que si se diferencian de los que el grupo predeterminado. Para determinar si son distintos de 0, añadir sus coeficientes para el intercepto y dividir la suma por sus errores estándar para obtener sus valores. La situación con las pistas será similar: es decir, la prueba de $X$ le dirá si el grupo predeterminado de la pendiente es significativamente distinto de 0, y los términos de interacción dirá si los grupos de' pendientes difieren de los grupos predeterminados. Las pruebas para las laderas de los otros grupos que están en contra 0 puede ser construido, así como para los intercepta. Sería aún mejor acaba de encajar un 'restringido' modelo sin que ninguno de los indicadores de grupo de variables o de los términos de interacción, y la prueba de este modelo con el modelo completo con anova(), que le dirá si los grupos difieren de manera significativa en todos.

Estas cosas que ha dicho, su principal pregunta es si haciendo todo esto es aceptable. La cuestión de fondo aquí es el problema de las comparaciones múltiples. Este es un largo y espinoso tema, con muchas opiniones. (Puede encontrar más información sobre este tema en CV por examinar las preguntas marcadas con esta palabra clave.) Mientras que las opiniones, sin duda, han variado en este tema, creo que a nadie le culpa a usted para la ejecución de muchos de los análisis sobre el mismo conjunto de datos proporcionado el análisis se ortogonal. Generalmente, los contrastes ortogonales se piensa en el contexto de averiguar cómo comparar un conjunto de $g$ grupos de uno a otro, sin embargo, que no es el caso aquí; tu pregunta es inusual (y, creo, muy interesante). Tan lejos como puedo ver, si usted simplemente quería particionar el conjunto de datos en $g$ independiente subconjuntos y ejecutar un modelo de regresión en cada uno de los que debe ACEPTAR. La pregunta más interesante es si el 'colapsado' análisis puede ser considerado ortogonal para el conjunto de los análisis individuales; yo no lo creo, porque usted debería ser capaz de recrear la colapsado análisis con una combinación lineal de los análisis de los grupos.

Un poco diferente de pregunta es si haciendo esto es realmente significativa. La imagen que se ejecute un análisis inicial y descubrir que los grupos difieren entre sí en una forma sustantiva manera significativa; ¿qué sentido tiene poner estos grupos divergentes juntos en un trastornados? Por ejemplo, imagina que los grupos difieren (de alguna manera) en sus intersecciones, entonces, al menos algunos del grupo no tienen un 0 interceptar. Si sólo hay un grupo de este tipo, entonces la intersección de la totalidad sólo será 0 si ese grupo tiene $n_g=0$ en la población relevante. Alternativamente, digamos que hay exactamente 2 grupos con distinto de cero intercepciones con uno positivo y uno negativo, entonces el conjunto tendrá un 0 interceptar sólo si el $n$'s de estos grupos están en proporción inversa a la magnitud de la intercepta' divergencias. Podría seguir aquí (hay muchas más posibilidades), pero el punto es que usted está haciendo preguntas acerca de cómo los grupos de tamaños se refieren a las diferencias en los valores de los parámetros. Francamente, estas son las extrañas preguntas a mí.

Le sugiero que siga el protocolo I esquema de arriba. A saber, el código de prueba de sus grupos. A continuación, ajuste de un modelo completo con todos los maniquíes y los términos de interacción incluido. Ajuste de un modelo reducido sin estas condiciones, y realizar un modelo anidado de prueba. Si los grupos difieren de alguna manera, seguir con (esperemos) a-priori (teóricamente) contrastes ortogonales para entender mejor cómo los grupos difieren. (Y la trama, siempre, siempre de la trama.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X