Consideran que los datos donde cada observación se genera de la siguiente manera.
Dibujamos $Z_1,...,Z_m$ a partir de algunos de distribución. (Posiblemente son independientes o relacionados de alguna otra manera simple.)
Siguiente, basado en el $Z_1,...,Z_m$, podemos elegir una secuencia $0=I_0 < I_1 < ... < I_N=m$, de modo que, para cada una de las $k$, (i) $I_k-I_{k-1}$ no es demasiado pequeño y (ii) la varianza de la muestra dentro de $Z_{I_{k-1}+1},...,Z_{I_k}$ es pequeña. (Yo soy intencionalmente vago aquí - estoy abierto a hacer varias suposiciones diferentes a lo largo de estas líneas).
Generamos el observado variables $X_1,...,X_N$ $X_k=$ el promedio de $Z_{I_{k-1}+1},...,Z_{I_k}$.
Por ejemplo, las secuencias ocultas $Z=(0.1, 0.3, 0.2, 1.3, 1.2, 0.1)$ podría conducir a la observada secuencia $X=(0.2, 1.25, 0.1)$ [o tal vez a $X=(0.2,0.86)$ debido a (i) anterior].
¿Alguien de aquí sabe si este tipo de configuración se ha estudiado antes, y si es así, ¿cuáles son algunas de las palabras clave a buscar o documentos/libros para mirar?
Gracias de antemano por las respuestas!
Añadido el 21 de abril: La motivación es como sigue. Piense en cada una de las $Z$ secuencia de datos de SNP de un solo paciente. Para anonimizar los datos de una versión pública de un procedimiento como el que he descrito anteriormente se puede realizar. Basado en los datos anónimos $X$, lo quiero para predecir la supervivencia y/o identificar SNPs que son relevantes para la supervivencia.
Tenga en cuenta que $I$, $N$, y $X$ todas las funciones son de $Z$, por lo que será diferente para cada paciente. También tenga en cuenta que ese $I$'s se observan, es decir, sé que $Z_j$'s fueron promediados para producir cada una de las $X_k$.