7 votos

¿Cuál es la diferencia entre una regresión lineal jerárquica y una regresión por mínimos cuadrados ordinarios (MCO)?

Estoy llevando a cabo una investigación en la que tengo algunas variables independientes (todas ellas son ficticias), moderadores (uno es ficticio, el otro es continuo) y una variable dependiente continua.

Me han dicho que utilice la regresión por mínimos cuadrados ordinarios (OLS), pero ¿cuál es la diferencia entre la regresión OLS y un análisis de regresión lineal jerárquica?

10voto

Nick Russo Puntos 51

La construcción de modelos jerárquicos consiste en comparar grupos. El poder del modelo es que se puede tratar la información sobre un grupo en particular como evidencia que relaciona cómo ese grupo se compara con el comportamiento agregado para un nivel en particular, así que si no se tiene mucha información sobre un solo grupo, ese grupo es empujado hacia la media para el nivel. He aquí un ejemplo:

Supongamos que queremos construir un modelo lineal que describa la alfabetización de los estudiantes (quizás en función del nivel de grado y del estatus socioeconómico) para una región. ¿Cuál es la mejor manera de hacerlo? Una forma ingenua sería tratar a todos los estudiantes de la región como un gran grupo y calcular un modelo OLS para las tasas de alfabetización en cada grado. No hay nada exactamente equivocado con esto, pero digamos que para un estudiante en particular, sabemos que asiste a una escuela especialmente buena en los suburbios. ¿Es realmente justo aplicar a este alumno el promedio de alfabetización de todo el condado para su grado? Por supuesto que no, su alfabetización será probablemente superior a la media debido a nuestra observación sobre su escuela. Así que, como alternativa, podríamos desarrollar un modelo independiente para cada escuela. Esto está muy bien para las grandes escuelas, pero de nuevo: ¿qué pasa con las pequeñas escuelas privadas? Si sólo tenemos 15 niños en una clase, probablemente no tendremos un modelo muy preciso.

Los modelos jerárquicos nos permiten hacer ambas cosas simultáneamente. En un nivel, calculamos la tasa de alfabetización de toda la región. En otro nivel, calculamos las tasas de alfabetización específicas de cada escuela. Cuanta menos información tengamos sobre una escuela concreta, más se aproximará a la media de todas las escuelas. Esto también nos permite ampliar el modelo para considerar otros distritos escolares, e incluso subir un nivel para comparar la alfabetización entre estados o incluso considerar las diferencias entre países. Todo lo que ocurra a nivel de país no tendrá una enorme impacto a nivel de condado porque hay muchos niveles intermedios, pero la información es información y debemos permitirle la oportunidad de influir en nuestros resultados, especialmente cuando tenemos muy pocos datos.

Así que si tenemos muy pocos datos sobre una escuela en particular, pero sabemos cómo se comportan en general las escuelas de ese país, estado y condado, podemos hacer algunas inferencias informadas sobre esa escuela y tratar la nueva información como una prueba contra nuestras creencias informadas por los grupos más grandes (los niveles más altos de la jerarquía).

6voto

SiPlus Puntos 121

Existe cierta confusión en cuanto al término "regresión jerárquica". La mayoría de las veces se refiere a los modelos multinivel, como ha indicado el póster anterior. En los libros de texto de psicología (por ejemplo, Cohen, Cohen, West y Aiken), la regresión jerárquica se refiere a una simple regresión OLS en la que los predictores se introducen en algún orden (presumiblemente basado en la teoría) y luego se evalúan los incrementos en la varianza explicada y los cambios en los coeficientes de regresión. En este sentido, la "regresión jerárquica" no difiere mucho de la regresión MCO, aparte de que ciertos conjuntos de predictores se introducen en la regresión en un orden determinado. La similitud de los términos es algo desafortunada, porque crea cierta confusión.

1voto

Sam Puntos 21

Suponga que tiene un dato muestreado sobre $N$ diferentes ubicaciones geográficas. En cada lugar se toma $n$ mediciones: cada medición, por ejemplo, registra la velocidad del viento, que depende de la temperatura y la humedad (no tengo ni idea del mundo real, esto es sólo a modo de ilustración). La forma simple (o regresión lineal ordinaria) de proceder es asumir que los datos son independientes de la ubicación geográfica. En este caso, basta con agrupar todo en una sola muestra y realizar el análisis OLR. Pero si se tiene la corazonada de que la ubicación puede influir, se añade otro nivel de jerarquía: se asume que la velocidad del viento y la humedad dependen de la ubicación geográfica. Por lo tanto, el primer nivel de jerarquía se utiliza para medir la variabilidad dentro de la fuente, o en cada una de las diferentes ubicaciones geográficas, y el segundo nivel tiene en cuenta la variabilidad entre fuentes.

Puedes añadir tantas jerarquías como necesites.

P.D. La regresión jerárquica, tal y como se realiza en el marco frecuentista, suele denominarse regresión multinivel, mientras que en el formalismo bayesiano es regresión jerárquica.

1voto

patfla Puntos 1

Para ser breve, una de las diferencias es cuando se intenta predecir los resultados de los efectos que están relacionados con las otras variables independientes, pero que no se han observado en la muestra. El ejemplo más sencillo de esto es si hay dominios particulares en los que no hay información directa de los datos que tiene - el ejemplo clásico es que no ha muestreado todas las escuelas, o todos los profesores/aulas dentro de una escuela. En OLS no se puede decir nada sobre los efectos de los profesores no muestreados, pero en el caso de la regresión jerárquica, el componente de la varianza de los profesores permite predecir el tamaño probable de los efectos de los profesores no muestreados.

Además, la regresión jerárquica suele utilizar la "contracción" y permite una especie de interpolación entre la inclusión de un determinado grupo de efectos en un marco OLS (por ejemplo, los profesores) y su exclusión. Debido a este efecto, son menos propensos a "sobreajustar" los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X