Tengo datos de una escala móvil con valores de 0 a 100 (no es el instrumento que he elegido, pero es lo que tengo). La escala tiene un valor por defecto de 50. Los participantes responden en la escala antes (pre) y después (post) de hacer un ejercicio.
Tengo un par de problemas que abordar.
(1) Resulta que hay un efecto masivo de sesgo por defecto, de modo que muchos participantes abandonan la escala en el valor 50.
(2) También se prefieren los valores 0, 25, 75, 100. Los múltiplos de 5 se prefieren en menor medida. (Véase el histograma más abajo)
Intento predecir la valoración "posterior" basándome en la valoración "previa" y en dos predictores continuos adicionales. ¿Cómo puedo tener en cuenta estas idiosincrasias en mi modelización? Mi primer instinto es eliminar por completo los valores de 50 porque no puedo confiar en que el participante se haya implicado realmente en la escala. Puede que sólo quisieran saltarse el segmento de valoración para llegar al segmento de ejercicio o para terminar su participación en el estudio. Se trata de un conjunto de datos del mundo real, no recogidos en un laboratorio, por lo que no había control sobre la forma en que las personas interactuaban con los instrumentos. Incluso si tomo ese enfoque menos que ideal, todavía me queda la cuestión de cómo lidiar con el hecho de que las personas se dibujan a 0, 25, 75, 100 y en menor grado - múltiplos de 5. Omitir los casos con una valoración de 50 también me deja con el problema de tener que tener en cuenta una parte que falta de la distribución cuando construyo mi modelo. Además, esto es problemático porque la parte que falta es exactamente donde un modelo de regresión lineal o un modelo bayesiano con un prior normal espera que la distribución tenga la mayor masa.
Una idea es utilizar algo como esto regresión bayesiana beta inflada cero uno . ¿Hay alguna forma de adaptar esto para estimar también ocurrencias infladas para "25" y "75"?
También estoy muy abierto a sugerencias completamente diferentes a todo lo que he mencionado.