La construcción de modelos jerárquicos consiste en comparar grupos. El poder del modelo es que se puede tratar la información sobre un grupo en particular como evidencia que relaciona cómo ese grupo se compara con el comportamiento agregado para un nivel en particular, así que si no se tiene mucha información sobre un solo grupo, ese grupo es empujado hacia la media para el nivel. He aquí un ejemplo:
Supongamos que queremos construir un modelo lineal que describa la alfabetización de los estudiantes (quizás en función del nivel de grado y del estatus socioeconómico) para una región. ¿Cuál es la mejor manera de hacerlo? Una forma ingenua sería tratar a todos los estudiantes de la región como un gran grupo y calcular un modelo OLS para las tasas de alfabetización en cada grado. No hay nada exactamente equivocado con esto, pero digamos que para un estudiante en particular, sabemos que asiste a una escuela especialmente buena en los suburbios. ¿Es realmente justo aplicar a este alumno el promedio de alfabetización de todo el condado para su grado? Por supuesto que no, su alfabetización será probablemente superior a la media debido a nuestra observación sobre su escuela. Así que, como alternativa, podríamos desarrollar un modelo independiente para cada escuela. Esto está muy bien para las grandes escuelas, pero de nuevo: ¿qué pasa con las pequeñas escuelas privadas? Si sólo tenemos 15 niños en una clase, probablemente no tendremos un modelo muy preciso.
Los modelos jerárquicos nos permiten hacer ambas cosas simultáneamente. En un nivel, calculamos la tasa de alfabetización de toda la región. En otro nivel, calculamos las tasas de alfabetización específicas de cada escuela. Cuanta menos información tengamos sobre una escuela concreta, más se aproximará a la media de todas las escuelas. Esto también nos permite ampliar el modelo para considerar otros distritos escolares, e incluso subir un nivel para comparar la alfabetización entre estados o incluso considerar las diferencias entre países. Todo lo que ocurra a nivel de país no tendrá una enorme impacto a nivel de condado porque hay muchos niveles intermedios, pero la información es información y debemos permitirle la oportunidad de influir en nuestros resultados, especialmente cuando tenemos muy pocos datos.
Así que si tenemos muy pocos datos sobre una escuela en particular, pero sabemos cómo se comportan en general las escuelas de ese país, estado y condado, podemos hacer algunas inferencias informadas sobre esa escuela y tratar la nueva información como una prueba contra nuestras creencias informadas por los grupos más grandes (los niveles más altos de la jerarquía).