Valores sin sentido de variables anidadas no debe afectar a tu modelo: Lo esencial desideratum con este tipo de análisis de datos es que la nested
variable no debe afectar al modelo si la explanatory
no la admite como variable significativa. En otras palabras, el modelo debe tener una forma que ignora los valores sin sentido de la variable anidada . Este es un requisito crucial para un modelo válido con variables anidadas, ya que garantiza que el resultado del modelo no se vea afectado por elecciones arbitrarias de codificación.
Modelización con variables anidadas: Este requisito se consigue creando una variable indicadora que determine cuándo su variable anidada es significativa, y poniendo la variable nested
variable en el modelo sólo como interacción con este indicador, sin incluirlo como efecto principal. Tenga en cuenta que se trata de una excepción a la regla general de que los términos no deben incluirse como interacciones sin un término de efecto principal.
Consideremos el caso general en el que el nested
sólo tiene sentido cuando la variable explanatory
variable está en algún conjunto de valores A
. En ese caso, utilizaría un modelo de formulario como éste:
response ~ 1 + explanatory + (explanatory %in% A) + (explanatory %in% A):nested + ...
Esto supone que la variable explicativa es continua; si ya es una variable factorial, entonces la (explanatory %in% A)
será redundante y podrá eliminarse. En el caso habitual de que su explanatory
es una variable variable indicadora (con un valor de uno que da lugar a una variable anidada significativa), esta forma del modelo se simplifica a esto:
response ~ 1 + explanatory + explanatory:nested + ...
Obsérvese que en estos enunciados modelo hay ningún término de efecto principal para la nested
variable. Esto es por diseño: la variable anidada no debería tener un término de efecto principal, ya que no es una variable significativa en ausencia de una condición sobre la variable explicativa. Con este tipo de modelo obtendrá una estimación del efecto de la variable explicativa y otra estimación del efecto de la variable anidada.
Codificación de variables anidadas en los datos: Cuando se trata de marcos de datos que enumeran las variables para la regresión, es una buena práctica que los valores de las variables nested
variable que debe codificarse como NA
en los casos en que no surja de forma significativa de la variable explicativa. Esto indica al lector que aquí no hay ninguna variable significativa. Algunos analistas codifican estas variables con otros valores, como cero, pero en general es una mala práctica, ya que puede confundirse con una cantidad significativa.
Matemáticamente, si multiplicamos cualquier número real por cero, obtenemos cero. Sin embargo, si está codificando en R
hay que tener cuidado aquí porque el programa multiplica 0:NA
dar NA
en lugar de 0
. Esto significa que puede que tenga que volver a codificar el NA
a cero a efectos del ajuste del modelo, o construya la matriz de diseño del modelo de modo que estos valores se pongan a cero.
Casos en los que la variable base es una función de la variable anidada: Una situación que se produce ocasionalmente en el análisis de regresión con variables anidadas es el caso en el que la variable anidada tiene un grado de detalle suficiente como para determinar completamente la variable explicativa inicial de la que surge, es decir, la variable explicativa original es una función de la variable anidada. Un ejemplo de esto ocurre en esta pregunta donde el analista tiene una variable indicadora DrugA
para saber si se ha tomado o no un medicamento, y una variable anidada DrugA_Conc
para la concentración del fármaco. En este ejemplo, esta última variable permite un valor de concentración igual a cero, lo que equivale a que no se tome el fármaco, por lo que DrugA
es equivalente a DrugA_Conc != 0
.
En este tipo de casos, el término de interacción entre la variable explicativa y la variable anidada es funcionalmente equivalente a la variable anidada, por lo que es posible (y normalmente deseable) eliminar por completo la variable explicativa inicial del modelo y utilizar simplemente la variable anidada por sí sola. Esto es legítimo en este caso, porque los valores de la variable anidada determinan el valor de la variable explicativa inicial. Hemos señalado anteriormente que a menudo es apropiado codificar las variables anidadas como NA
cuando no se den las condiciones para ello. Si la condición se deriva de una variable explicativa que es un indicador, y el indicador corresponde al uso de la variable anidada, entonces el evento nested != NA
es equivalente a explanatory
. En tales casos, es posible recodificar la variable anidada de modo que la variable explicativa inicial no sea necesaria en absoluto en el modelo.
Hay que tener cuidado al analizar esta situación. Incluso en el caso de que esté utilizando una variable explicativa inicial que sea una variable indicadora, puede ser útil a efectos interpretativos no fusionar la variable explicativa y la variable anidada. Además, en los casos en los que la variable explicativa no es una variable indicadora, normalmente contendrá información que no está contenida en la variable anidada, por lo que no se puede eliminar.
Debería considerar modelos mixtos heirárquicos o lineales: El método anterior garantiza que sus variables anidadas no contribuyan a la regresión en los casos en que no tengan sentido. Sin embargo, el uso de la estimación MCO con un modelo de regresión estándar sigue suponiendo que los "términos de error" del modelo no están correlacionados. En los casos en los que hay variables anidadas, esto puede dar lugar a errores correlacionados que se representan mejor mediante un modelo jerárquico o un modelo lineal mixto. En consecuencia, cuando tenga variables anidadas en su regresión, debe considerar si los resultados de los puntos de datos del mismo "grupo" anidado tendrán o no resultados que estén correlacionados (condicionados por los otros regresores) o no.
La presente respuesta no entrará en detalles sobre los modelos jerárquicos y los modelos lineales mixtos. Se trata de dos clases de modelos muy amplias que cuentan con abundante bibliografía estadística. Gelman y Hill (2007) ofrece una buena visión general del tema, empezando por la regresión lineal estándar y continuando con la modelización jerárquica multinivel. También ofrece detalles sobre la aplicación en R
.