(Convirtiendo mis comentarios en una respuesta real.)
Creo que la verdadera pregunta aquí es "¿a qué se refiere 'efecto aleatorio'?"
Parece haber algunos candidatos obvios:
- la variable de bloqueo/agrupamiento
- las pendientes/interceptos variables
- las predicciones asociadas para las pendientes/interceptos variables (es decir, los BLUPs o modos condicionales)
- la totalidad de la variable de bloqueo + pendientes/interceptos variables (aunque hay cierta ambigüedad incluso en esto, si se refiere a la matriz de modelo $Z$ o a la variable aleatoria latente $B$ o a los niveles observados de esa variable $b$ se entienden en la formulación habitual. Esta ambigüedad en realidad paraleliza la ambigüedad en 1-3, y destaca por qué estas diferentes interpretaciones realmente tienen sentido porque están apuntando a diferentes aspectos de la misma parte de las matemáticas.)
Resulta que 'efecto aleatorio' puede referirse a cualquiera de estas cosas, dependiendo del contexto. Por ejemplo, tanto lme4 como MixedModels.jl utilizan ranef()
para extraer los BLUPs, pero también se refieren a las varianzas estimadas para las pendientes/interceptos variables como efectos aleatorios. Esta ambigüedad se discute en muchos lugares, como por ejemplo, en el texto introductorio de Gelman y Hill (p. 245 del libro publicado en 2006; hay o pronto habrá una nueva 'edición' de dos partes).
NOTA AL MARGEN: Por qué el uso de "aleatorio" no puede ser decisivo para resolver esta ambigüedad Quiero hacer una importante observación aquí: la persona que publicó la pregunta está argumentando por un Veredicto Final terminológico basado en el término 'aleatorio'. Primero, no creo que podamos convencer a una amplia comunidad de usuarios para que adopten nuestra terminología preferida por decreto. Segundo, en la formulación bayesiana de la regresión, incluso los efectos fijos son variables aleatorias, ver por ejemplo los excelentes apuntes del curso de Jarrod Hadfield, que son una viñeta en el gran paquete MCMCglmm. La ambigüedad terminológica también se discute algo ahí. (Esto es parte de por qué los frecuentistas tienen intervalos y los bayesianos tienen distribuciones posteriores -- los parámetros son valores fijos en el frecuentismo, cuya distribución de muestreo es una variable aleatoria, pero los parámetros mismos son variables aleatorias en el bayesianismo). Todo esto está horriblemente simplificado para que quepa en una nota al margen, así que por favor, sean gentiles al corregir cualquier imprecisión al comprimir ideas complejas en un espacio pequeño para no expertos.
Todo esto parece horrible, pero si sirve de consuelo, incluso el término "efecto fijo" puede ser ambiguo en otros contextos. Por ejemplo, en econometría "efectos fijos" significa algo como "un covariable categórico" (también discutido en Gelman y Hill, pero quizás más evidente por el nombre del paquete Julia para regresión con predictores categóricos de alta dimensionalidad. Esto ha llevado a Andrew Gelman a preferir "multinivel" o "jerárquico" a "efectos mixtos", pero incluso estos términos no son perfectos. Por ejemplo, una de las innovaciones en software como lme4 es que no es necesario tener un anidamiento jerárquico estricto de las variables de bloqueo, así que parece extraño llamar a esos modelos "jerárquicos" o incluso "multinivel" cuando no hay necesariamente una estratificación clara en niveles de éxito. (Esto también explica por qué encuentro tan confusa la terminología de Nivel 1 y Nivel 2 en algunos textos clásicos). Además, "nivel" se usa a menudo para referirse a las diferentes realizaciones posibles de una variable categórica, como en la función levels()
en R cuando se aplica a variables de tipo factor()
. Además, "regresión jerárquica" puede referirse a un procedimiento particular para la selección de variables en la regresión clásica OLS (véase por ejemplo, este artículo que lo discute en la lista de términos mal utilizados).
En otras palabras, incluso si pudiéramos declarar por decreto que "efectos aleatorios" se referirán únicamente a una de las posibilidades anteriores, aún tenemos una pila de ambigüedades terminológicas con las que lidiar. Esto es solo parte de trabajar en un campo (estadístico) que tiene su propio conjunto de diversas tradiciones de investigación y que está profundamente conectado, a través de sus usuarios, a un conjunto aún más diverso de tradiciones de investigación en muchos campos diferentes.
¿Cómo lidiar con esto entonces? Mi enfoque habitual tiene algunos componentes:
-
hacerlo obvio a partir del contexto (por ejemplo, hablando de medidas repetidas y dónde ocurrió la repetición)
-
usar terminología alternativa para que quede claro, por ejemplo, "interceptos por ubicación" o "pendientes variables por ubicación". Esta es la solución de Andrew Gelman. Igualmente, Doug Bates a menudo será explícito sobre las variables "experimentales" y de "bloqueo", por ejemplo, aquí, y especificar qué factores experimentales se permiten variar entre o dentro de qué factores de bloqueo. Esta terminología de "entre" y "dentro" también insinúa la conexión subyacente profunda con el ANOVA clásico de medidas repetidas.
-
Usar la notación de fórmulas de Wilkinson-Roger para ser muy explícito, sin ser dolorosamente matemático (por eso a menudo escribo las fórmulas).
-
Ampliar el punto (3): ¡incluir código en publicaciones de investigación! Las palabras a menudo son ambiguas; las matemáticas y el código explícitos no lo son tanto. La notación matemática se desarrolló porque generalmente es más precisa que las palabras, incluso si requiere algo de práctica para dominar este nuevo método de expresión.
EDICIÓN 2020-12-11 21:23 UTC La pregunta ha sido editada ahora para incluir el calificador "frecuentista". No creo que esto realmente ayude mucho / invalide mi nota al margen. Los modelos de efectos mixtos frecuentistas siguen siendo vagamente bayesianos, por eso "modo condicional" es un nombre más preciso que BLUPs, e de hecho una frecuentista derivación común de modelos mixtos es esencialmente como un problema de Bayes empírico. (Esto también es evidente en la derivación de la verosimilitud logarítmica perfilada utilizada en lme4 y MixedModels.jl: hay literalmente una línea donde tienes algo que se ve matemáticamente como una priori multiplicado por una verosimilitud.) También creo que descarta el terreno común entre el enfoque frecuentista estricto / de máxima verosimilitud y el enfoque bayesiano. Tanto MCMCglmm como brms utilizan la terminología de efectos fijos y aleatorios en su documentación, en parte porque esta es una forma estándar de enfatizar la diferencia entre la estimación de medias y la estimación de varianzas y eso significa para la parametrización del modelo y, por lo tanto, la interpretación de los parámetros del modelo. Porque esa es realmente la diferencia a la que nos estamos refiriendo en efecto fijo vs. aleatorio, con los diferentes significados de "efecto aleatorio" que en gran parte enfatizan diferentes partes de la estructura de esa covarianza multivariada. Sin embargo, esta es una discusión que va más allá del alcance de esta pregunta y que ha sido abordada en numerosas preguntas en este sitio, en la documentación de todo el software que mencioné y en muchos textos introductorios sobre este material.