12 votos

Métrica de evaluación de la predicción para datos de panel/longitudinal

Me gustaría evaluar varios modelos diferentes que proporcionan predicciones de comportamiento a nivel mensual. Los datos están equilibrados y $n=$ 100.000 y $T=$ 12. El resultado es la asistencia a un concierto en un mes, por lo que es cero para el ~80% de las personas en cualquier mes, pero hay una larga cola derecha de grandes usuarios. Las predicciones que tengo no parecen respetar la naturaleza de recuento del resultado: los conciertos fraccionados son prevalentes.

No sé nada de los modelos. Sólo observo 6 diferentes predicciones de caja negra $\hat y_1,...,\hat y_6$ por cada persona al mes. Yo sí un año más de datos que los creadores del modelo no tenían para estimación (aunque los asistentes a los conciertos siguen siendo los mismos), y me gustaría me gustaría calibrar en qué punto se comporta bien cada uno (en términos de exactitud y precisión). Por ejemplo, ¿algún modelo predice bien los conciertos frecuentes de conciertos, pero fracasa en el caso de los adictos al sofá? ¿Es la predicción para enero es mejor que la predicción para diciembre? Por otra parte, sería sería bueno saber que las predicciones me permiten clasificar a las personas correctamente en función de los datos reales, aunque no se pueda confiar en la magnitud exacta de la magnitud exacta.

Lo primero que pensé fue en realizar una regresión de efectos fijos de lo real sobre lo predichos y dummies de tiempo y mirar los RMSEs o $R^2$ para cada modelo. Pero que no responde a la pregunta sobre dónde lo hace bien cada modelo o si las diferencias son significativas (a menos que haga un bootstrap del RMSE). La distribución del resultado también me preocupa con este enfoque.

Mi segunda idea era dividir el resultado en 0, 1-3 y 3+ y calcular la matriz de confusión. calcular la matriz de confusión, pero esto ignora la dimensión temporal, a menos que haga 12 de estos. También es bastante grueso.

Conozco los comandos de Stata concord de T.J. Steichen y N.J. Cox--que tiene la by() pero eso requeriría colapsar los datos a totales anuales. Así se calcula el Índice de correlación de la concordancia con intervalos de confianza, entre otras estadísticas útiles. El CCC va de -1 a 1, con una concordancia perfecta en 1.

También está Harrell's $c$ (calculado a través de somersd de R. Newson), que tiene la cluster opción, pero no estoy seguro de que me permita tratar los datos del panel. Esto le da intervalos de confianza. La c de Harrell es la generalización del área bajo una curva ROC (AUC) para un resultado continuo. Es la proporción de todos los pares que pueden ordenarse de forma que el sujeto con la predicción más alta tenga realmente el resultado más alto. Así que $c=0.5$ para predicciones aleatorias $c=1$ para un modelo perfectamente discriminante. Véase El libro de Harrell , p.493

¿Cómo abordaría usted este problema? ¿Sugiere calcular estadísticas como el MAPE, que son habituales en las previsiones?


Cosas útiles encontradas hasta ahora:

  • Diapositivas en una versión de medidas repetidas del Coeficiente de Correlación de Concordancia de Lin

0 votos

Necesitaremos saber más sobre el comportamiento, ¿es de valor ordinal/binario/continuo? Dado que este experimento es longitudinal, ¿le interesa pronosticar o predecir los resultados en un individuo? Los modelos de efectos mixtos se utilizan para la inferencia, no para la predicción. No funcionan porque, para predecir se necesita una estimación del efecto aleatorio.

0 votos

El comportamiento real es de conteo o continuo. Las predicciones son todas continuas. Me gustaría ver la calidad de las predicciones mensuales a nivel individual.

0 votos

¿"Predicciones mensuales a nivel individual" en personas de las que ha observado datos anteriores o personas en la evaluación inicial? Es decir, ¿obtiene usted $\widehat{Y_{i=12}} = f(X_{i=12, 11, \cdots, 1}, Y_{i=11, 10, \cdots, 1}$ o $\widehat{Y_{i=I}} = f(X_{i=I, I-1, \cdots, 1}, Y_{i=I-1, I-2, \cdots, 1}$ o $\widehat{Y_{i}} = f(X_{i})$ o ... por favor, aclárese, ya que la predicción de la longitudinal no es una cuestión de mano.

1voto

alexs77 Puntos 36

Para evaluar la capacidad de predicción de una previsión semi-Markov, hay varios métodos disponibles en función del tamaño de la muestra y de otra información disponible.

Para evaluar cualquier modelo de predicción/pronóstico, tiene la opción de la validación cruzada (específicamente la validación cruzada de muestra dividida o iterativa), en la que se estima un modelo en una muestra de "entrenamiento" y se evalúa la incertidumbre del modelo en una muestra de "validación". Dependiendo de la distribución del resultado, se dispone de una serie de medidas por las que se puede seleccionar un modelo entre un panel de modelos elegibles. Para las medidas generales no paramétricas de selección de modelos, a la gente le gusta mucho el AIC y el BIC, especialmente este último.

Los estadísticos CCC y c se utilizan para evaluar predicciones binarias transversales como las de los tests/ensayos, por lo que tendrá que descartarlos si está prediciendo, por ejemplo, el IMC o el CI. Miden la calibración (como la prueba de Hosmer Lemeshow) y lo que se denomina capacidad de estratificación del riesgo. No hay una conexión intuitiva con los resultados continuos, al menos hasta donde yo sé.

Por otro lado, el RMSE se utiliza para evaluar las predicciones continuas (salvo en el caso de la predicción del riesgo, en el que el RMSE se denomina puntuación de Brier, una herramienta de evaluación de modelos bastante arcaica y obsoleta). Es una herramienta excelente y probablemente se utiliza para calibrar más del 80% de los modelos de predicción que encontramos a diario (previsiones meteorológicas, calificaciones energéticas, MPG de los vehículos, etc.).

Una advertencia en la validación de la muestra dividida o el remuestreo para evaluar los modelos de previsión es que puede que sólo le interesen los resultados futuros cuando su muestra le deje predecir los resultados pasados. No lo haga. No refleja la aplicación de los modelos y puede influir enormemente en la selección de forma negativa. Haga avanzar toda la información disponible y prediga los resultados futuros no observados en todos los casos disponibles.

Prácticamente cualquier libro de modelos lineales aplicados cubrirá la predicción, el RMSE y los matices del entrenamiento y la validación de los modelos. Un buen comienzo sería Kutner, Nachtsheim, Neter, Li, también considere "Time Series Analysis" de Diggle, "Longitudinal Data Analysis" de Diggle Heagerty Zeger Li, y potencialmente "Regression Modeling Strategies" de Harrell.

0 votos

La CCC y la c de Harrell pueden utilizarse con resultados continuos. CCC también tiene una implementación de medidas repetidas. Vea las referencias/enlaces que he añadido en la pregunta.

0 votos

No importa. No estás clasificando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X