18 votos

En el análisis de supervivencia, ¿cuándo deberíamos usar modelos totalmente paramétricos sobre semiparamétricos?

Esta pregunta es el contrapunto de la otra pregunta En el análisis de supervivencia, para qué los utilizamos semi-paramétrica de modelos de riesgos proporcionales de Cox) en lugar de totalmente de modelos paramétricos?

De hecho, se demuestra claramente las ventajas de Cox de Riesgos Proporcionales de regresión sobre completamente paramétrico, sin la suposición de que la distribución del tiempo de supervivencia.

Aún así, hay algunos de los recientes paquetes de R (SmoothHazard(2017), por ejemplo, la función shr con method="Weib") lo que hace posible el fácil ajuste plenamente a los modelos paramétricos.

Resulta que he tenido la oportunidad de realizar tanto en un 50k conjunto de datos, con resultados muy similares.

¿Qué beneficios se esperan de un totalmente paramétrico modelo de supervivencia? ¿Qué adicional analiza permitiría que?

15voto

dan90266 Puntos 609

Esto ha sido estudiado en detalle por muchos años y hay una gran cantidad de literatura. Me gusta mucho spline los modelos de riesgo. La respuesta más sencilla a tu pregunta es esta:

  • Si desea estimar la covariable efectos, especialmente en la ausencia de tiempo-dependiente de las covariables, entonces semiparamétrico modelos como el modelo de riesgos proporcionales de Cox son preferidos porque son rápidos, robustos y en y transformación invariante
  • Flexible de modelos paramétricos son un poco más eficientes para la estimación de cantidades absolutas como las curvas de supervivencia
  • Los modelos paramétricos proporcionar una fórmula que hace que la predicción más fácil
  • Si usted puede integrar la función de riesgo analíticamente cuando dependiente del tiempo de covariables están presentes, los modelos paramétricos proporcionar más rápido de predicción y más intuición
  • Los modelos paramétricos pueden extrapolar (pero ten cuidado) para producir las estimaciones de supervivencia más allá de la última de tiempo de seguimiento, y para estimar esperado (media) tiempo de supervivencia

En resumen yo diría que la razón principal para como paramétrica de modelos de supervivencia no es la eficiencia, sino la facilidad de interpretación y de la obtención de predicciones para futuras observaciones.

Ver este papel , por ejemplo.

11voto

alexs77 Puntos 36

Cuando usted saber el real en la forma funcional de la función de riesgo, el totalmente paramétrico modelo de supervivencia es mucho más eficiente que el modelo de Cox. La eficiencia estadística es como poder. Una buena manera de pensar en ella es el ancho del intervalo de confianza para su estimación final de la sesión-los cocientes de riesgo: un apretado CI es el resultado de un análisis de eficiencia (suponiendo que tiene un estimador imparcial).

Exponencial y Weibull supervivencia modelos son realmente populares entre los ejemplos de "conocidos" funciones de riesgo (constante y lineal en el tiempo, respectivamente). Pero usted podría tener cualquier edad de referencia de peligro para la función de $\lambda(t)$, y calcular la espera de supervivencia en cualquier momento y por cualquier combinación de las covariables dado una estimación del parámetro $\theta$ como:

$$S(\theta, t) = \exp(\Lambda(t)\exp(\theta \mathbf{X}))$$

donde $\Lambda(t)$ es el acumulado de peligro. Un proceso iterativo de EM-tipo de solver llevaría a un máximo de estimaciones de probabilidad de $\theta$.

Es un puro hecho de que, suponiendo un constante peligro, la relativamente eficiencia del modelo de Cox para el modelo Weibull para la Exponencial totalmente paramétrico modelo de supervivencia es de 3:2:1. Es decir, cuando los datos están realmente exponencial, que se llevará a 9 veces el número de observaciones en un modelo de Cox para producir un intervalo de confianza para el efecto estimado, $\theta$ con igualdad de espera de la mitad de ancho que el de la exponencial modelo de supervivencia. Usted debe usar lo que usted sabe cuando usted lo sabe, pero nunca asumir erróneamente.

6voto

Cliff AB Puntos 3213

Me he pasado un montón de tiempo trabajando con el caso general de intervalo de censura, es decir, cuando a la hora del evento puede ser conocida exactamente, a la derecha o a la izquierda censurado o sólo se conocen hasta un intervalo. Por ejemplo, supongamos que una parte es inspeccionado y aprobado en $T_1$ y, a continuación, inspeccionado nuevamente en $T_2$ y error. A continuación, todo lo que sabemos es que se produjo un error en el intervalo de $(T_1, T_2]$.

En el intervalo censurado caso, mientras que podemos utilizar bootstrap + normalidad asintótica para hacer inferencias acerca de los coeficientes de regresión, este no es el caso de la línea de base de la supervivencia de la curva de sí mismo. Por lo tanto, si uno quiere hacer inferencia sobre la realidad de los tiempos de supervivencia y no sólo los cocientes de riesgo, uno necesita usar completamente el modelo paramétrico. Como tal, la semi-paramétrica del modelo se utiliza a menudo para verificar el ajuste del modelo en lugar de por completo de inferencia en lo que respecta a los tiempos de supervivencia.

Por supuesto, este no es el caso para datos censurados a la derecha. Me imagino que los intervalos de confianza para las estimaciones de supervivencia son un poco más estrictos para un completo modelo paramétrico, aunque no he probado eso. De hecho, ver a @AdamO la respuesta para más sobre esto.

Como otro punto, el de POPA modelo no tiene un semi-paramétrica del modelo (en el sentido de que el método de Kaplan-Meier-como la línea de base de la distribución), incluso para el derecho censurados o sin censura de datos. O más específicamente, el modelo es muy difícil de optimizar. La razón de esto es que usted puede pensar en la POPA del modelo como un reescalado de las veces, en comparación con el de proporcionalidad de riesgos o probabilidades de los modelos, que redimensionan las probabilidades de supervivencia. El problema con esto es que en un semi-paramétrica del modelo, la única manera en que evento o censurar a veces afecta la probabilidad es el rango relativo. Lo suficientemente pequeño como los movimientos de los tiempos de evento no va a cambiar las filas del todo (suponiendo que no hay lazos en los datos), es decir, los derivados son todos cero, sin ataduras. Y cuando hay lazos, los derivados son ilimitadas! No es muy divertido problema de optimización. Dado que la POPA modelo es más resistente a la falta de covariables y más interpretables, hay un fuerte argumento para el uso de POPA, aunque no es semi-paramétrica del modelo.

Una razón más a favor de modelos paramétricos más de semi-paramétrico es que pueden ser más fáciles de generalizar. Por ejemplo, si se quiere realizar un análisis Bayesiano, es mucho más fácil con un modelo paramétrico. O si se quiere construir un cura-modelo de tasa, esto no es identificable por un semi-paramétrico de modelo, pero es identificable por un modelo paramétrico.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X