8 votos

Análisis de los datos dados como intervalos en lugar de puntos

Tengo un conjunto de datos que no está dado como $ \boldsymbol{x} = x_1, \dots, x_n,$ pero como pares de $\boldsymbol{x}_{interval} = (x^{(start)}_1, x^{(end)}_1), \dots, (x^{(start)}_n, x^{(end)}_n). $ Para cada par $(x^{(start)}_i, x^{(end)}_i),$ el verdadero $x_i$ se encuentra en el intervalo de $(x^{(start)}_i, x^{(end)}_i), $, pero no se sabe donde.

En su contexto, esto significa que tenemos intervalos en los que sabemos que un evento de $x_i$ ocurrido, que nos dice que sucedió después de $x^{(start)}_i,$ pero antes de $x^{(end)}_i$.

El objetivo del análisis es el modelo de datos o en alguna forma aproximada la distribución. Inicialmente, voy a empezar con el intento de utilizar la información contenida en los intervalos de ajuste a una distribución normal a la distribución de los eventos observados $\boldsymbol{x}$ .

Estoy teniendo un momento muy difícil encontrar cualquier información sobre este tipo de problema. Es este un conocido campo de la investigación, de intervalo estadístico de análisis?

10voto

jasonmray Puntos 1303

Los datos están censurados, específicamente intervalo de censura. La censura, especialmente el derecho de censurar (inicio pero no un fin), es una característica común de la tiempo-a-datos del evento y aborda en el análisis de supervivencia (Medicina) o análisis de fiabilidad (Ingeniería).

Para el modelado paramétrico de estos datos, la idea clave es que las contribuciones a la conjunta de la probabilidad de censura que los datos son de la forma $$f(x_i)$$ while those from censored data are of the form $$F\left((x_i^\mathrm{(end)}\right)-F\left(x_i^\mathrm{(start)}\right)$$, where $f(\cdot)$ is the density & $F(\cdot)$ la función de distribución. Bajo el supuesto de que independiente de la censura—que usted no debe saltar a—estos son la única parte de la probabilidad necesaria para la inferencia como la censura veces no contienen información adicional acerca de los parámetros. Si una distribución normal, parece apropiado empezar con un gráfico de contorno de la probabilidad en contra de la media y la varianza de los parámetros, a continuación, mejorar inicial máxima de estimaciones de probabilidad numéricamente.

5voto

Cliff AB Puntos 3213

Un buen punto de partida para el examen de la distribución univariante sería mirar la No-Paramétrico Estimador de Máxima Verosimilitud (NPMLE). Esta es una generalización de las curvas de Kaplan-Meier (que en sí es una generalización de la Distribución Empírica de la Función), el cual le dará una no-paramétrico de estimación de la función de distribución acumulativa. Curiosamente, esta estimación no es único (a diferencia de la FED o curvas de Kaplan Meier), sino que se sabe hasta un intervalo. Así que usted conseguirá un par de funciones de paso que unía a la NPMLE, en lugar de una sola función de paso.

Mientras que este estimador es bueno para el examen de la forma de la distribución, puede ser un poco inestable, es decir, una alta varianza en las estimaciones. Uno puede caber estándar de los modelos paramétricos, pero se recomienda el uso de la NPMLE al menos para la comprobación del modelo.

Muchos de los estándar de la supervivencia de los modelos de regresión disponible (de riesgos proporcionales, acelerado el tiempo de falla y proporcional de las probabilidades, por ejemplo). Curiosamente, a pesar de la NPMLE tiene una alta varianza en las estimaciones de la curva de supervivencia, los parámetros de regresión en un semi-paramétrica del modelo que utiliza el NPMLE para la línea de base distrubtion no sufren de la inestabilidad. De manera semi-paramétrico de los métodos de regresión son muy populares para la inferencia.

@Scorthchi y @whuber llevar hasta los puntos importantes acerca de la generación de el principio y el final de la observación de los intervalos de ($x_i^{start}, x_i^{end}$ como se define en el OP). Un estándar de la simplificación de la asunción (que debe ser cuidadosamente considerado) es que hay un conjunto de inspección veces $C_0 \leq C_1 \leq, ..., \leq C_k$ que se generan de forma independiente de la situación real de tiempo / resultado $t$ de interés (la igualdad se produce cuando observamos la hora del evento, exactamente). Entonces, todo lo que se observa es el intervalo de $C_j, C_{j+1}$ tal que $t \in C_j, C_{j+1}$. Pero si parece plausible que la hora del evento fuerte podría influir en el tiempo de inspección, se debe tener cuidado en el análisis. Como un ejemplo, supongamos que nuestro evento de interés fue la aparición de caries y de nuestras inspecciones fueron visitas al dentista. Si vamos al dentista con bastante regularidad, la asunción de la independencia me parece razonable. Pero si estamos muy rara vez de ir al dentista, excepto cuando nuestros dientes, que me duele un montón, a continuación, $t$ es, sin duda influyen en la $C_j$!

Un breve tutorial para el uso de estos modelos en mi R-package icenReg puede ser encontrado aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X