1 votos

Ajuste de distribuciones en datos censurados

Mi pregunta tiene que ver con el ajuste de distribuciones en datos censurados; a efectos de claridad, podemos considerar una distribución continua que está censurada tanto a la izquierda como a la derecha. En tal caso, las variantes se "agrupan" en un valor superior máximo si son mayores que un umbral $t_h$ o en un valor mínimo inferior si son inferiores a un umbral $t_l$ . Sólo hemos observado estos datos censurados y queremos ajustar una distribución que en algún sentido modele adecuadamente los datos que hemos observado.

He visto varios casos de ajuste de distribuciones en los que el ajuste de los parámetros se realiza mediante la estimación de máxima verosimilitud. En estos casos, la probabilidad de los puntos censurados se establece a través de la FDA F(x) = P(X < x): $F(x)$ se utiliza para evaluar los puntos truncados por la izquierda y $1-F(x)$ se utiliza para evaluar los puntos truncados por la derecha. Mientras tanto, para los puntos no truncados, se utiliza la densidad de probabilidad f(x) para la evaluación. Para algunos ejemplos, por favor vea estos posts si no entiende lo que quiero decir:

https://www.r-bloggers.com/fitting-censored-log-normal-data/

https://stats.stackexchange.com/questions/49443/how-to-model-this-impar-shaped-distribution-almost-a-reverse-j

Mi pregunta es, ¿por qué es comúnmente aceptado ajustar las partes censuradas utilizando la probabilidad $mass$ pero las partes no censuradas utilizando la probabilidad $density$ ? Al tratarse de unidades diferentes, ¿no se vuelven inestables los resultados o se ven influenciados por las diferencias de escalas de magnitud que puedan existir entre la densidad y la masa?

Mi racionalización de por qué este procedimiento puede ser Lo que está bien es que, en un régimen de selección de modelos como el ajuste de distribuciones, estos problemas persisten en varios parámetros de la clase de modelos; en cierto sentido, tenemos una "igualdad de condiciones" entre las distribuciones contendientes. Esto no resuelve realmente el problema de las diferentes escalas de masa y densidad, pero al menos parece "justo".

¿Podría alguien arrojar algo de luz sobre esto? Cualquier otra indicación sobre cómo tratar este tipo de distribuciones (continuas sobre un rango, y luego con masas puntuales) sería útil ya que soy muy nuevo en este espacio.

Gracias de antemano.

0voto

chocojosh Puntos 639

Esto no es una respuesta sino algunas reflexiones (demasiado largas para los comentarios) .

Los dos enlaces que has proporcionado suponen que los datos provienen de una distribución continua, es decir, tratan de ajustarse a una distribución continua. Para los datos censurados supongo que estás diciendo que $F (x) $ se utiliza en la expresión del producto de probabilidad (para maximizar) en lugar del producto de 'términos discretos' que no queremos utilizar, para los puntos de datos por debajo del umbral elegido (de forma similar para por encima de algún umbral).

¿Sería esto más fácil de aceptar si estuviéramos ajustando una distribución discreta?

Supongo que esto se suele enseñar como un método a seguir, que es bastante claro en el caso discreto (cuando no hay censura), y puede necesitar alguna justificación extra (matemática) en el caso continuo.

Al parecer, con la censura, la expresión de probabilidad dependerá de los dos valores del "umbral" y de los de bwn y no contendrá puntos individuales que estén fuera de este rango.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X