1 votos

Cómo diseñar un filtro para eliminar la influencia de los factores en los valores de una medición

¿Conoce alguien los métodos adecuados para modificar los valores de una serie temporal con el fin de tener en cuenta los factores que se sabe que inflan o desinflan artificialmente la medida?

Un ejemplo del problema sería ver cómo cambia la inteligencia de un alumno a lo largo del tiempo.

Podríamos someter al alumno a una prueba cada semana y hacer un seguimiento de su puntuación porcentual, formando una serie temporal. Los tests nunca captan realmente la inteligencia, por lo que esta serie temporal tendrá ruido debido a los errores del proceso y a otros factores que afectan a las puntuaciones de los tests.

Sin embargo, hay ciertos factores que podríamos medir y que influyen en la puntuación del examen, como las horas de estudio o las horas de sueño la noche anterior a la realización del examen. También podríamos medir las correlaciones entre los valores de estos factores y las puntuaciones de los exámenes de una gran población de estudiantes.

¿Existe alguna técnica que pueda utilizarse para suavizar esta serie temporal de modo que sea más representativa de la verdadera inteligencia interna de los estudiantes? Así, por ejemplo, si el alumno ha estudiado anormalmente durante una semana, su puntuación en el test se reduciría en el filtro para reflejar que su inteligencia medida (porcentaje del test) se ha inflado artificialmente debido al tiempo extra de estudio.

Recientemente he aprendido sobre los filtros de Kalman, ya que son buenos para tratar con series temporales ruidosas, sin embargo, no veo ninguna manera de diseñar el filtro de Kalman para que "suavice" el efecto de estos factores externos.

¿Se conoce alguna modificación del algoritmo del filtro de Kalman que se adapte a este problema, o quizá algún otro tipo de filtro bayesiano?

1voto

James P Puntos 38

Introducción

Lo que usted menciona es un problema bien conocido -y bien tratado- en la econometría y en las ciencias sociales y del comportamiento, y las soluciones entran dentro de (la dinámica) modelización de ecuaciones estructurales (SEM) y análisis de datos de panel y además modelización de la curva de crecimiento (latente) .

El problema es que, basándose en datos longitudinales (múltiples mediciones a lo largo del tiempo), usted quiere hacer inferencias sobre las relaciones entre variables latentes estables (tipo rasgo) y variables en el tiempo (tipo estado), y algunas variables exógenas (invariables en el tiempo, como el género; o variables en el tiempo, como el sueño) y algunas variables endógenas (por ejemplo, el tiempo dedicado a estudiar, ya que puede verse afectado por la puntuación de un examen anterior). Por lo tanto, hay que distinguir entre las diferencias intrapersonales y las interpersonales.

Una nota sobre la terminología:

Para los casos en los que se tienen unas medidas de muchas personas ( $T << N$ ), los datos suelen llamarse datos de panel y si el número de ocasiones de medición es grande, especialmente en comparación con el número de personas ( $T >> N$ ), entonces dice que tiene un dato longitudinal intensivo (ILD) y utiliza el análisis de series temporales.


¿Qué modelos puedo utilizar?

Hay docenas de modelos capaces de hacer eso, y usted puede elegir uno dependiendo de sus suposiciones y preguntas de investigación. Creo que un modelo de rasgo latente-estado-ocasión sería un modelo apropiado para su problema, y le sugiero encarecidamente que lea este artículo ( disponible en SciHub ):

Cole, D. A., Martin, N. C., y Steiger, J. H. (2005). Problemas empíricos y conceptuales de los modelos longitudinales de rasgo-estado: Introducción de un modelo rasgo-estado-ocasión . Psychological Methods, 10(1), 3-20. doi:10.1037/1082-989x.10.1.3

Resumo brevemente tres posibles estrategias de modelado explicadas en el documento:

1. Modelo estado-rasgo-error

En este modelo, su artículos (preguntas del test de CI) administradas en diferentes momentos (u "oleadas"), y se supone que las diferencias en las respuestas en los momentos $t$ son causados por el factor de rasgo específico de la persona $T$ y variables latentes específicas de la ocasión $O_t$ . Las variables latentes $O_t$ puede sustituirse por cualquier variable endógena (y quizás, exógena). Si se asume un modelo invariable en el tiempo, se pueden fijar los efectos de autorregresión para que sean iguales $\beta_1, \beta_2, \ldots, \beta_{J-1} = \beta$ y puedes ponerlos a cero para eliminar cualquier relación temporal.

enter image description here

2. Modelo autorregresivo latente estado-rasgo

En este modelo, se asume que los ítems miden el nivel actual de los estudiantes habilidad al responder a la prueba administrada ( $S_t$ ). El $S_t$ se ven afectadas por las habilidades previas del estudiante ( $S_{t-1}$ ), factores contextuales/específicos de la ocasión ( $O_t$ ), y un rasgo subyacente invariable en el tiempo ( $T$ ) que influye igualmente en la capacidad del alumno en todo momento.

enter image description here

3. Modelo rasgo-estado-ocasión

Esto es bastante similar al modelo anterior, excepto que aquí se asume que las dependencias temporales entre los estados $S_t$ (capacidad en diferentes momentos) radican en la dependencia temporal entre las ocasiones (por ejemplo, el estudio/sueño de los estudiantes tienen algún tipo de naturaleza autorregresiva).

enter image description here

Asuntos prácticos

¿Qué modelo debo elegir?

La elección del modelo está fuertemente determinada por sus relaciones hipotéticas. En caso de que no tenga hipótesis específicas que probar, puede "dejar que los datos hablen por sí mismos" y favorecer un modelo sobre otro basándose (y elegir/identificar el "modelo que mejor se ajusta") en los índices de ajuste SEM o en los criterios de información (por ejemplo, AICc o BIC).

¿Cómo utilizar estos modelos?

Al ajustar estos modelos, se obtienen estimaciones de parámetros para las cargas de los factores, las (co)varianzas y los efectos AR. A continuación, puede alimentar los modelos (preferidos) con las respuestas de los alumnos para estimar sus variables latentes, que ahora se descomponen en su rasgo estable y en factores específicos del tiempo (ocasión/contexto y/o habilidades).


Más información

Tal vez quiera consultar los siguientes libros sobre modelos de ecuaciones estructurales longitudinales:

Little, T. D. (2013). Modelización de ecuaciones estructurales longitudinales texto enfatizado . Guilford press.

Newsom, J. T. (2015). Modelización de ecuaciones estructurales longitudinales: Una introducción exhaustiva . Routledge.

Debe tener mucho cuidado si quiere hacer inferencias sobre relaciones cruzadas (por ejemplo, si quiere ver si el sueño y el estudio se afectan mutuamente a lo largo del tiempo). Esto no es lo que quieres hacer aquí, pero es un asunto extremadamente importante, y te sugiero que leas este artículo al respecto:

Hamaker, E. L., Kuiper, R. M., & Grasman, R. P. (2015). Una crítica al modelo de panel con retraso cruzado . Métodos psicológicos, 20(1), 102.

En caso de que tenga datos longitudinales intensivos (con demasiadas mediciones; no es factible para las pruebas de inteligencia), es posible que desee utilizar el modelado dinámico de ecuaciones estructurales (DSEM). Véase este documento:

Asparouhov, T., Hamaker, E. L., & Muthén, B. (2018). Modelos de ecuaciones estructurales dinámicas . Modelización de ecuaciones estructurales: A Multidisciplinary Journal, 25(3), 359-388.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X