44 votos

¿Cómo se tratan las variables "anidadas" en un modelo de regresión?

Consideremos un problema estadístico en el que se tiene un response variable que desea describir condicionada a una explanatory y una variable nested donde la variable anidada sólo aparece como variable significativa para determinados valores de la variable explicativa . En los casos en que la variable explicativa no admite una variable anidada significativa, esta última suele codificarse como NA en el conjunto de datos, o si se codifica con un valor, ese valor es simplemente un marcador de posición que no tiene ninguna interpretación significativa.

Esta situación tiende a producirse siempre que se tiene una variable explicativa que indica la existencia de una cosa, y una o más variables anidadas que describen la características de esa cosa. Algunos ejemplos de este tipo de situaciones en problemas estadísticos son los siguientes:

  • La variable explicativa es un indicador de si un participante en la encuesta es married y la variable anidada es alguna characteristic of the spouse (por ejemplo, educación, edad, etc.);

  • La variable explicativa es un indicador del presence of an item en un espacio, y la variable anidada es una medida de algún characteristic of the item (por ejemplo, tamaño, distancia, etc.);

  • La variable explicativa es un indicador de la aparición de un event y la variable anidada es una descripción de algún characteristic of the event (por ejemplo, duración, magnitud, etc.).

En este tipo de situaciones, a menudo queremos construir un modelo de tipo regresión (en el sentido amplio que incluye GLM, GLMM, etc.) que describa la relación entre la variable de respuesta y las demás variables. No es obvio cómo tratar la variable anidada en este tipo de modelo.

Pregunta: ¿Cómo abordamos la nested variable en este tipo de modelo?


Nota: Esta pregunta pretende dar una respuesta generalizada a una pregunta recurrente sobre CV.SE en relación con las variables anidadas en la regresión (véase, p. ej, aquí , aquí , aquí y aquí ). El objetivo de esta pregunta es ofrecer un ejemplo generalizado de este problema, independiente del contexto.

41voto

Aaron Puntos 36

Valores sin sentido de variables anidadas no debe afectar a tu modelo: Lo esencial desideratum con este tipo de análisis de datos es que la nested variable no debe afectar al modelo si la explanatory no la admite como variable significativa. En otras palabras, el modelo debe tener una forma que ignora los valores sin sentido de la variable anidada . Este es un requisito crucial para un modelo válido con variables anidadas, ya que garantiza que el resultado del modelo no se vea afectado por elecciones arbitrarias de codificación.


Modelización con variables anidadas: Este requisito se consigue creando una variable indicadora que determine cuándo su variable anidada es significativa, y poniendo la variable nested variable en el modelo sólo como interacción con este indicador, sin incluirlo como efecto principal. Tenga en cuenta que se trata de una excepción a la regla general de que los términos no deben incluirse como interacciones sin un término de efecto principal.

Consideremos el caso general en el que el nested sólo tiene sentido cuando la variable explanatory variable está en algún conjunto de valores A . En ese caso, utilizaría un modelo de formulario como éste:

response ~ 1 + explanatory + (explanatory %in% A) + (explanatory %in% A):nested + ...

Esto supone que la variable explicativa es continua; si ya es una variable factorial, entonces la (explanatory %in% A) será redundante y podrá eliminarse. En el caso habitual de que su explanatory es una variable variable indicadora (con un valor de uno que da lugar a una variable anidada significativa), esta forma del modelo se simplifica a esto:

response ~ 1 + explanatory + explanatory:nested + ...

Obsérvese que en estos enunciados modelo hay ningún término de efecto principal para la nested variable. Esto es por diseño: la variable anidada no debería tener un término de efecto principal, ya que no es una variable significativa en ausencia de una condición sobre la variable explicativa. Con este tipo de modelo obtendrá una estimación del efecto de la variable explicativa y otra estimación del efecto de la variable anidada.


Codificación de variables anidadas en los datos: Cuando se trata de marcos de datos que enumeran las variables para la regresión, es una buena práctica que los valores de las variables nested variable que debe codificarse como NA en los casos en que no surja de forma significativa de la variable explicativa. Esto indica al lector que aquí no hay ninguna variable significativa. Algunos analistas codifican estas variables con otros valores, como cero, pero en general es una mala práctica, ya que puede confundirse con una cantidad significativa.

Matemáticamente, si multiplicamos cualquier número real por cero, obtenemos cero. Sin embargo, si está codificando en R hay que tener cuidado aquí porque el programa multiplica 0:NA dar NA en lugar de 0 . Esto significa que puede que tenga que volver a codificar el NA a cero a efectos del ajuste del modelo, o construya la matriz de diseño del modelo de modo que estos valores se pongan a cero.


Casos en los que la variable base es una función de la variable anidada: Una situación que se produce ocasionalmente en el análisis de regresión con variables anidadas es el caso en el que la variable anidada tiene un grado de detalle suficiente como para determinar completamente la variable explicativa inicial de la que surge, es decir, la variable explicativa original es una función de la variable anidada. Un ejemplo de esto ocurre en esta pregunta donde el analista tiene una variable indicadora DrugA para saber si se ha tomado o no un medicamento, y una variable anidada DrugA_Conc para la concentración del fármaco. En este ejemplo, esta última variable permite un valor de concentración igual a cero, lo que equivale a que no se tome el fármaco, por lo que DrugA es equivalente a DrugA_Conc != 0 .

En este tipo de casos, el término de interacción entre la variable explicativa y la variable anidada es funcionalmente equivalente a la variable anidada, por lo que es posible (y normalmente deseable) eliminar por completo la variable explicativa inicial del modelo y utilizar simplemente la variable anidada por sí sola. Esto es legítimo en este caso, porque los valores de la variable anidada determinan el valor de la variable explicativa inicial. Hemos señalado anteriormente que a menudo es apropiado codificar las variables anidadas como NA cuando no se den las condiciones para ello. Si la condición se deriva de una variable explicativa que es un indicador, y el indicador corresponde al uso de la variable anidada, entonces el evento nested != NA es equivalente a explanatory . En tales casos, es posible recodificar la variable anidada de modo que la variable explicativa inicial no sea necesaria en absoluto en el modelo.

Hay que tener cuidado al analizar esta situación. Incluso en el caso de que esté utilizando una variable explicativa inicial que sea una variable indicadora, puede ser útil a efectos interpretativos no fusionar la variable explicativa y la variable anidada. Además, en los casos en los que la variable explicativa no es una variable indicadora, normalmente contendrá información que no está contenida en la variable anidada, por lo que no se puede eliminar.


Debería considerar modelos mixtos heirárquicos o lineales: El método anterior garantiza que sus variables anidadas no contribuyan a la regresión en los casos en que no tengan sentido. Sin embargo, el uso de la estimación MCO con un modelo de regresión estándar sigue suponiendo que los "términos de error" del modelo no están correlacionados. En los casos en los que hay variables anidadas, esto puede dar lugar a errores correlacionados que se representan mejor mediante un modelo jerárquico o un modelo lineal mixto. En consecuencia, cuando tenga variables anidadas en su regresión, debe considerar si los resultados de los puntos de datos del mismo "grupo" anidado tendrán o no resultados que estén correlacionados (condicionados por los otros regresores) o no.

La presente respuesta no entrará en detalles sobre los modelos jerárquicos y los modelos lineales mixtos. Se trata de dos clases de modelos muy amplias que cuentan con abundante bibliografía estadística. Gelman y Hill (2007) ofrece una buena visión general del tema, empezando por la regresión lineal estándar y continuando con la modelización jerárquica multinivel. También ofrece detalles sobre la aplicación en R .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X