8 votos

Problema de la censura informativa

Estoy leyendo "Monte Carlo Statistical Methods" de Robert y Cassella, y el problema 1.3 pregunta

En el ejemplo 1.1, la distribución de la variable aleatoria $Z=\min(X,Y)$ era de interés. Derivar la distribución de $Z$ en el siguiente caso de censura informativa, donde $Y\sim N(\theta,\sigma^2)$ y $X\sim N(\theta,\theta^2\sigma^2)$ . Preste atención a los problemas de identificabilidad.

Seguramente me estoy perdiendo algo, pero tengo entendido que la censura informativa se produce cuando $X$ y $Y$ no son independientes. Sin embargo, sólo saber que no son independientes no es suficiente información para obtener la distribución conjunta, pero si son independientes, no veo ningún problema de identificabilidad.

Añadido: Si $X$ y $Y$ son independientes es sencillo pero tedioso escribir la distribución de $Z$ el tedio exacerbado por el hecho de que la distribución de $X$ es una función delta cuando $\theta$ es $0$ . Sin embargo, para una distribución dada, podemos encontrar $\theta$ como el (obviamente único) tercer cuartil de la distribución, y dado $\theta$ , $\sigma^2$ es sólo un parámetro de escala, por lo que no hay problemas de identificabilidad que yo pueda ver.

Así que, en resumen, mis preguntas son:

  • ¿Cuál es exactamente la definición de censura informativa y ¿por qué es informativa la censura en este ejercicio?

  • Si estamos destinados a tomar $X$ y $Y$ como independientes, ¿cuáles son los problemas de identificabilidad a los que hay que prestar atención?

Además

Con la explicación de Ocram de censura informativa ahora está claro que las cuestiones de identificabilidad a las que había que prestar atención eran que no había ninguna. Si los parámetros de las distribuciones de fallo y censura estuvieran separados, habría problemas de identificabilidad, ya que podríamos intercambiar las dos distribuciones y obtener el mismo resultado.

Si alguien con más conocimientos que yo se siente especialmente quijotesco, por favor, considere la posibilidad de aclarar la Censura de la página wikipedia .

0 votos

No lo entiendo: dado $\theta$ y $\sigma$ , se conocen las distribuciones de $X$ y $Y$ . Suponiendo la independencia se obtiene la distribución conjunta de $(X,Y)$ con lo que se tiene todo lo necesario para determinar la distribución de cualquier función medible de $X$ y $Y$ como $\min$ . Entonces, ¿cuál es la "más información" que busca?

0 votos

@whuber Sí, pero asumiendo la independencia, no hay problemas de identificabilidad que tratar. Además, tal y como yo lo entiendo, la independencia significa que la censura no es informativa. Así que la "más información" es : ¿Qué es exactamente la "censura informativa" y cuáles son los "problemas de identificabilidad" a los que debo prestar atención? Si la pregunta fuera Dado $X$ y $Y$ ¿cuál es la distribución de $\min(X,Y)$ No tendría problemas. Por desgracia, hay términos como "censura informativa" que creo entender, pero mi comprensión no coincide con el uso en la pregunta.

0 votos

@deinst: A mi modo de ver, independencia no significa "censura no informativa". Si quieres, luego distingo un poco...

16voto

ocram Puntos 9992

Esto es un intento de responder a la petición que hizo en los comentarios.

Independencia entre $T$ y $C$ frente a la censura no informativa

A continuación, asumo una censura aleatoria a la derecha.

Toma una muestra de tiempos de supervivencia i.i.d. $$(y_1, \delta_1), \ldots{}, (y_n, \delta_n),$$ donde $y_i = \min(t_i, c_i)$ es el mínimo entre el tiempo de supervivencia y el tiempo de censura, y donde $\delta_i = I(t_i \leq c_i)$ es el indicador de eventos. Así que, usando mi notación, $T$ es la variable aleatoria tiempo de suceso con densidad $f(\cdot)$ y tiempo de supervivencia $S(\cdot)$ mientras que $C$ es la variable aleatoria de tiempo de censura con densidad $g(\cdot)$ y supervivencia $G(\cdot)$ .

En independencia entre $T$ y $C$ la contribución de la función de verosimilitud a un tiempo de evento $(y_i, 1)$ se ve fácilmente que es $$"\Pr[T=y_i, C > y_i]" = G(y_i) f(y_i).$$ Del mismo modo, la contribución de la función de verosimilitud a los datos censurados $(y_i, 0)$ es $$"\Pr[C=y_i, T > y_i]" = S(y_i) g(y_i). $$

Por lo tanto, la función de verosimilitud para los datos completos puede escribirse como $$L = \prod_{i=1}^{n} \left[G(y_i) f(y_i)\right]^{\delta_i} \left[S(y_i) g(y_i)\right]^{1- \delta_i}.$$

Supongamos ahora que la distribución de $C$ no depende de los parámetros de la distribución de $T$ . Entonces los factores $G(y_i)^{\delta_i} g(y_i)^{1-\delta_i}$ son no informativo y puede ser factorizado: $$L \propto \prod_{i=1}^{n} f(y_i)^{\delta_i} S(y_i)^{1- \delta_i}.$$

Esta es la probabilidad habitual cuando se trata de datos de supervivencia. En términos generales, la independencia entre $T$ y $C$ le permite dividir la contribución conjunta de $T$ y $C$ en sus contribuciones marginales, mientras que la hipótesis de censura no informativa permite deshacerse de $g(\cdot)$ y $G(\cdot)$ .

0 votos

Vale, entonces para el problema que nos ocupa la "informatividad" de la censura viene del hecho de que las distribuciones de tiempo de censura y de tiempo de supervivencia dependen de los mismos parámetros. Gracias.

0 votos

Así que sería mejor decir "no informativo sobre $\theta$ ". ¿No hay diferentes intentos de definir la censura no informativa en el análisis de supervivencia?

0 votos

No sé si hubo otros intentos. De todos modos, creo que esto es lo que clásicamente se entiende por no informativo, ya que es la probabilidad clásica...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X