45 votos

¿Son útiles los modelos mixtos como modelos de predicción?

Estoy un poco confundido sobre las ventajas de los modelos mixtos con respecto a la modelización predictiva. Dado que los modelos predictivos suelen estar pensados para predecir valores de observaciones previamente desconocidas, me parece obvio que la única forma en que un modelo mixto puede ser útil es a través de su capacidad para proporcionar predicciones a nivel de población (es decir, sin añadir ningún efecto aleatorio). Sin embargo, el problema es que hasta ahora, según mi experiencia, las predicciones a nivel de población basadas en modelos mixtos son significativamente peores que las predicciones basadas en modelos de regresión estándar con efectos fijos únicamente.

Entonces, ¿qué sentido tienen los modelos mixtos en relación con los problemas de predicción?

EDITAR. El problema es el siguiente: He ajustado un modelo mixto (con efectos fijos y aleatorios) y un modelo lineal estándar con efectos fijos solamente. Cuando hago una validación cruzada, obtengo la siguiente jerarquía de precisión predictiva: 1) modelos mixtos cuando se predice utilizando efectos fijos y aleatorios (pero esto funciona, por supuesto, sólo para las observaciones con niveles conocidos de las variables de efectos aleatorios, por lo que este enfoque predictivo parece no ser adecuado para las aplicaciones predictivas reales); 2) modelo lineal estándar; 3) modelo mixto cuando se utilizan predicciones a nivel de población (por lo que se descartan los efectos aleatorios). Así pues, la única diferencia entre el modelo lineal estándar y el modelo mixto es el valor algo diferente de los coeficientes debido a los diferentes métodos de estimación (es decir, hay los mismos efectos/predictores en ambos modelos, pero tienen diferentes coeficientes asociados).

Así que mi confusión se reduce a una pregunta, ¿por qué iba a utilizar un modelo mixto como modelo de predicción, ya que el uso del modelo mixto para generar predicciones a nivel de población parece ser una estrategia inferior en comparación con un modelo lineal estándar.

36voto

mkt Puntos 688

Depende de la naturaleza de los datos, pero en general esperaría que el modelo mixto superara a los modelos de efectos fijos solamente.

Pongamos un ejemplo: modelizar la relación entre la insolación y la altura de los tallos de trigo. Tenemos una serie de mediciones de tallos individuales, pero muchos de los tallos se miden en los mismos sitios (que son similares en cuanto a suelo, agua y otras cosas que pueden afectar a la altura). He aquí algunos modelos posibles:

1) altura ~ sol

2) altura ~ sol + sitio

3) altura ~ sol + (1|sitio)

Queremos utilizar estos modelos para predecir la altura de los nuevos tallos de trigo dada una estimación de la insolación que experimentarán. Voy a ignorar la penalización de los parámetros que se pagaría por tener muchos sitios en un modelo de efectos fijos solamente, y sólo voy a considerar el poder predictivo relativo de los modelos.

La pregunta más relevante aquí es si estos nuevos puntos de datos que intenta predecir son de uno de los sitios que ha medido; dice que esto es raro en el mundo real, pero sucede.

A) Los nuevos datos proceden de un sitio que ha medido

Si es así, los modelos #2 y #3 superarán al #1. Ambos utilizan información más relevante (efecto medio del sitio) para hacer predicciones.

B) Los nuevos datos proceden de un lugar no medido

Aún así, espero que el modelo nº 3 supere a los nº 1 y nº 2, por las siguientes razones.

(i) Modelo #3 vs #1:

El modelo nº 1 producirá estimaciones sesgadas a favor de los sitios sobrerrepresentados. Si tiene un número similar de puntos de cada sitio y una muestra razonablemente representativa de los sitios, debería obtener resultados similares de ambos.

(ii) Modelo #3 vs. #2:

¿Por qué el modelo 3 sería mejor que el modelo 2 en este caso? Porque los efectos aleatorios aprovechan encogimiento - los efectos del sitio se "reducirán" a cero. En otras palabras, tenderá a encontrar valores menos extremos para los efectos de sitio cuando se especifica como efecto aleatorio que cuando se especifica como efecto fijo. Esto es útil y mejora su capacidad de predicción cuando las medias de la población pueden considerarse razonablemente extraídas de una distribución normal (véase La paradoja de Stein en estadística ). Si se espera que las medias de la población no sigan una distribución normal, esto puede ser un problema, pero suele ser una suposición muy razonable y el método es robusto ante pequeñas desviaciones.

[Nota al margen: por defecto, al ajustar el modelo nº 2, la mayoría de los programas informáticos utilizan uno de los sitios como referencia y estiman los coeficientes para los otros sitios que representan su desviación de la referencia. Así que puede parecer que no hay forma de calcular un "efecto poblacional" global. Pero se puede calcular promediando las predicciones de todos los sitios individuales o, más sencillamente, cambiando la codificación del modelo para que los coeficientes se calculen para cada sitio].

18voto

Zolani13 Puntos 128

Siguiendo con la excelente respuesta de mkt: Desde mi experiencia personal en el desarrollo de modelos predictivos en el ámbito de los seguros de salud, la incorporación de efectos aleatorios en los modelos predictivos (incluidos los modelos de aprendizaje automático) tiene una serie de ventajas.

A menudo me piden que elabore modelos para predecir los resultados de las reclamaciones futuras (por ejemplo, los gastos sanitarios futuros, la duración de la estancia, etc.) basándose en los datos históricos de las reclamaciones de un individuo. A menudo, hay varios siniestros por persona con resultados correlacionados. Ignorar el hecho de que muchos siniestros son compartidos por el mismo paciente sería desechar información valiosa en un modelo predictivo.

Una solución sería crear variables indicadoras de efectos fijos para cada miembro del conjunto de datos y utilizar una regresión penalizada para reducir cada uno de los efectos fijos a nivel de miembro por separado. Sin embargo, si hay miles o millones de miembros en sus datos, una solución más eficiente desde el punto de vista computacional y predictivo puede ser representar los múltiples efectos fijos a nivel de miembro como un único término de efecto aleatorio con una distribución normal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X