30 votos

Métodos estadísticos para los datos de donde se conoce sólo un valor mínimo y máximo

Hay una rama de la estadística que se ocupa de los datos para los cuales los valores exactos no se conocen, pero para cada persona, sabemos ya sea un máximo o mínimo enlazado con el valor?

Sospecho que mi problema se deriva principalmente del hecho de que estoy luchando para expresar en términos estadísticos, pero espero que un ejemplo ayudará a aclarar:

Dicen que hay dos poblaciones a y B tales que, en algún momento, los miembros de Una posible "transición" en B, pero la inversa no es posible. Los tiempos de la transición, es variable, pero no al azar. Por ejemplo, Una podría ser "personas sin descendencia" y B "a los individuos con al menos una descendencia". Estoy interesado en la edad de esta progresión se produce, pero sólo tengo datos de corte transversal. Para cualquier individuo dado, puedo averiguar si pertenecen a a o B. también sé que la edad de estas personas. Para cada individuo en Una población, sé que la edad en la transición va a ser MAYOR QUE su edad actual. Asimismo, para los miembros de B, sé que la edad en la transición fue MENOS DE su edad actual. Pero no sé los valores exactos.

Decir que tengo algún otro factor que quiero comparar con la edad de transición. Por ejemplo, quiero saber si una persona subespecies o el tamaño del cuerpo afecta la edad a la primera descendencia. Definitivamente tengo algo de información útil que debe informar a esas preguntas: en promedio, los individuos en Una, las personas mayores tienen una transición más tarde. Pero la información es imperfecta, en particular para los individuos más jóvenes. Y viceversa para la población B.

Hay métodos establecidos para lidiar con este tipo de datos? No necesariamente necesita un método completo de cómo llevar a cabo tal análisis, sólo algunos de los términos de búsqueda o recursos útiles para empezar a que me fuera en el lugar adecuado!

Advertencias: estoy haciendo la simplificación de la suposición de que la transición de a a B es instantánea. También estoy dispuesto a asumir que la mayoría de las personas en algún momento de progreso a B, suponiendo que viven lo suficiente. Y me doy cuenta de que longitutinal de datos sería muy útil, pero asumir que no es posible en este caso.

Disculpas si este es un duplicado, como he dicho, es parte de mi problema es que no sé lo que debo buscar. Por la misma razón, por favor añadir otras etiquetas si es apropiado.

Conjunto de datos de ejemplo: Ssp indica que una de las dos subespecies, X o Y. Descendencia indica la falta de descendencia (A) o al menos una descendencia (B)

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

Edit: ejemplo de conjunto de datos ha cambiado, como que no era muy representativo

28voto

Cliff AB Puntos 3213

Esto se conoce como el estado actual de los datos. Usted obtiene un corte transversal a la vista de los datos, y en cuanto a la respuesta, todo lo que sabemos es que en el observado la edad de cada sujeto, el evento (en su caso: la transición de a a B) ha sucedido o no. Este es un caso especial de intervalo de censura.

Para definir formalmente, deje $T_i$ el (no observados) verdadero tiempo del evento para el sujeto $i$. Deje $C_i$ el tiempo de inspección de materia $i$ (en su caso: edad a la inspección). Si $C_i < T_i$, los datos se haga censurado. De lo contrario, los datos está a la izquierda censurado. Somos muy interesante, en el modelado de la distribución de $T$. Para los modelos de regresión, estamos interesados en modelar la forma en que los cambios en la distribución de un conjunto de covariables $X$.

Para analizar el uso de este intervalo de censurar los métodos, usted quiere poner sus datos en la general, el intervalo de censura formato. Es decir, para cada sujeto, tenemos el intervalo de $(l_i, r_i)$, lo cual representa el intervalo en el que conocemos $T_i$ a ser contenida. De modo que si el sujeto $i$ es derecho censurado en el tiempo de inspección en $t_i$, podríamos escribir $(t_i, \infty)$. Si es a la izquierda censurado en $t_i$, se representan como $(0, t_i)$.

Enchufe descarado: si desea utilizar modelos de regresión para analizar sus datos, esto se puede hacer en R usando icenReg (soy el autor). De hecho, en una pregunta similar sobre el estado actual de los datos, el OP de poner una buena demostración de la utilización de icenReg. Él empieza mostrando que el desconocimiento de la censura de parte y mediante regresión logística lleva a los prejuicios (nota importante: se refiere a la utilización de la regresión logística sin ajustar por edad. Más sobre esto más adelante.)

Otro gran paquete de es interval, que contiene log-rank pruebas estadísticas, entre otras herramientas.

EDITAR:

@EdM sugirió el uso de la regresión logística para la respuesta del problema. Yo estaba injustamente retirarme de esto, diciendo que usted no tendría que preocuparse acerca de la forma funcional de tiempo. Mientras estoy de pie detrás de la declaración de que usted debe preocuparse acerca de la forma funcional de momento, me di cuenta de que había una muy razonable transformación que conduce a una razonable estimador paramétrico.

En particular, si utilizamos log(tiempo) como covariable en nuestro modelo de regresión logística, nos encontramos con una proporción de probabilidades con el modelo log-logístico de referencia.

A ver, por considerar que la parte proporcional de probabilidades del modelo de regresión se define como

$\text{Odds}(t|X, \beta) = e^{X^T \beta} \text{Odds}_o(t)$

donde $\text{Odds}_o(t)$ es la línea de base de las probabilidades de supervivencia en el tiempo de $t$. Tenga en cuenta que la regresión de efectos son los mismos que con la regresión logística. Todo lo que necesitamos hacer ahora es mostrar que la línea de base de distribución log-logística.

Ahora considere la posibilidad de una regresión logística con log(Tiempo) como covariable. Entonces tenemos

$P(Y = 1 | T = t) = \frac{\exp(\beta_0 + \beta_1 \log(t))}{1 + \exp(\beta_0 + \beta_1\log(t))}$

Con un poco de trabajo, usted puede ver esto como el CDF de una log-logística (modelo no lineal de la transformación de los parámetros).

R demostración de que los ataques son equivalentes:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

Tenga en cuenta que el efecto de la grp es el mismo en cada modelo, y el final de la log-verosimilitud se diferencia sólo por error numérico. La línea de base de los parámetros (es decir, interceptar y log_age de regresión logística, alfa y beta para el intervalo censurado modelo) son diferentes parametrizaciones de modo que no son iguales.

Así que ahí lo tienen: el uso de la regresión logística es equivalente a la colocación de la parte proporcional de probabilidades con un log-logística de línea de base de la distribución. Si estás de acuerdo con la instalación de este modelo paramétrico, la regresión logística es bastante razonable. Hago la advertencia de que, con intervalo de datos censurados, semi-paramétrica de modelos generalmente son favorecidos debido a la dificultad de evaluar el ajuste del modelo, pero si yo realmente pensaba que no había lugar para totalmente de modelos paramétricos yo no las han incluido en icenReg.

4voto

Björn Puntos 457

Este es un caso de censura/grueso de los datos. Suponga que usted piensa que sus datos surge a partir de una distribución con bien comportado de forma continua (etc.) pdf $f(x)$ y el cdf $F(x)$. La solución estándar de tiempo para los datos de eventos cuando el tiempo exacto $x_i$ de un evento para los sujetos $i$ que se sabe es que la probabilidad de contribución es $f(x_i)$. Si sólo sabemos que el tiempo era mayor que el de $y_i$ (a la derecha-censura), entonces la probabilidad de contribución es $1-F(y_i)$ bajo el supuesto de que independiente de la censura. Si sabemos que el tiempo es menos de $z_i$ (de izquierda a censura), entonces la probabilidad de contribución es $F(z_i)$. Por último, si el tiempo cae en algún intervalo $(y_i, z_i]$, entonces la probabilidad de contribución $F(z_i)-F(y_i)$.

4voto

EdM Puntos 5716

Este problema parece que podría ser bien manejada por regresión logística.

Se tienen dos estados, a y B, y queremos examinar la probabilidad de que un individuo en particular, ha cambiado de forma irreversible del estado a al estado B. fundamental predictor de la variable sería la edad en el momento de la observación. El otro factor o factores de interés serían adicionales a las variables predictoras.

Su modelo logístico, a continuación, utilizaría las observaciones reales de A/B, estado, edad, y otros factores para estimar la probabilidad de estar en el estado B como una función de los predictores. La edad a la que la probabilidad de que pasa de 0,5 podría ser utilizado como la estimación del tiempo de transición y, a continuación, examinar las influencias del otro factor(s) en que predijo el tiempo de transición.

Añadido en respuesta a la discusión:

Como con cualquier modelo lineal, usted necesita para asegurarse de que sus predictores, se transforman en una forma que ellos tienen una relación lineal para la variable de resultado, en este caso el log-odds de la probabilidad de haberse trasladado para el estado de B. Que no es necesariamente un problema trivial. La respuesta por @CliffAB muestra cómo una transformación logarítmica de la variable edad puede ser utilizado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X