4 votos

Promedios de subconjuntos aleatorios de variables

Consideran que los datos donde cada observación se genera de la siguiente manera.

  • Dibujamos $Z_1,...,Z_m$ a partir de algunos de distribución. (Posiblemente son independientes o relacionados de alguna otra manera simple.)

  • Siguiente, basado en el $Z_1,...,Z_m$, podemos elegir una secuencia $0=I_0 < I_1 < ... < I_N=m$, de modo que, para cada una de las $k$, (i) $I_k-I_{k-1}$ no es demasiado pequeño y (ii) la varianza de la muestra dentro de $Z_{I_{k-1}+1},...,Z_{I_k}$ es pequeña. (Yo soy intencionalmente vago aquí - estoy abierto a hacer varias suposiciones diferentes a lo largo de estas líneas).

  • Generamos el observado variables $X_1,...,X_N$ $X_k=$ el promedio de $Z_{I_{k-1}+1},...,Z_{I_k}$.

Por ejemplo, las secuencias ocultas $Z=(0.1, 0.3, 0.2, 1.3, 1.2, 0.1)$ podría conducir a la observada secuencia $X=(0.2, 1.25, 0.1)$ [o tal vez a $X=(0.2,0.86)$ debido a (i) anterior].

¿Alguien de aquí sabe si este tipo de configuración se ha estudiado antes, y si es así, ¿cuáles son algunas de las palabras clave a buscar o documentos/libros para mirar?

Gracias de antemano por las respuestas!

Añadido el 21 de abril: La motivación es como sigue. Piense en cada una de las $Z$ secuencia de datos de SNP de un solo paciente. Para anonimizar los datos de una versión pública de un procedimiento como el que he descrito anteriormente se puede realizar. Basado en los datos anónimos $X$, lo quiero para predecir la supervivencia y/o identificar SNPs que son relevantes para la supervivencia.

Tenga en cuenta que $I$, $N$, y $X$ todas las funciones son de $Z$, por lo que será diferente para cada paciente. También tenga en cuenta que ese $I$'s se observan, es decir, sé que $Z_j$'s fueron promediados para producir cada una de las $X_k$.

23voto

Jordi Bunster Puntos 3840

Puede aplicar la regresión lineal con la regularización (Lazo) para resolver este problema. La idea sería para ajustar los datos con pieza de sabios constante de las funciones de la adición de una multa por cada salto que se produce. El objetivo de reducir es

$x^* = \arg\min_{x\in\mathbb{R}^m} \|z - x\|_2^2 + \lambda \|\nabla x\|_1$,

donde $(\nabla x)_i = x_{i-1} - x_{i}$ el (hacia atrás) operador diferencia en la cuadrícula. El parámetro $\lambda$ controla el equilibrio entre los pequeños contra los grandes intervalos y baja vs alta varianza dentro de los intervalos.

A partir de la solución de $x^*$ se puede reconstruir los intervalos de $I$.

3voto

Eran Medan Puntos 193

Su problema caería dentro de la categoría de "datos faltantes". En última instancia, de una forma u otra, tendrá que inferir las variables ocultas$Z$. Esto se puede hacer usando el algoritmo de maximización de expectativas .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X