3 votos

¿Por qué son importantes las distribuciones de probabilidad truncadas en Estadística?

¿Por qué son importantes las Distribuciones de Probabilidad Truncadas en estadística?

Recientemente, estaba leyendo acerca de las Distribuciones de Probabilidad "Truncadas". Como su nombre sugiere, una Distribución de Probabilidad Truncada se crea tomando alguna Función de Distribución de Probabilidad y restringiendo (es decir, "truncando") el rango que la variable aleatoria puede tomar. Sin embargo, en lugar de simplemente definir la Función de Distribución de Probabilidad original sobre un "rango truncado", terminamos creando una nueva Función de Distribución de Probabilidad sobre este rango truncado (es decir, la Función de Distribución de Probabilidad Truncada):

enter image description here

Mi pregunta: ¿Por qué es necesario crear una "Función de Distribución de Probabilidad Truncada" a partir de la Función de Distribución de Probabilidad original? ¿Por qué no podemos simplemente restringir el rango de la Función de Distribución de Probabilidad original y realizar todas nuestras inferencias sobre esta Función de Distribución de Probabilidad original, o es porque hacerlo resultaría en que la Función de Distribución de Probabilidad original no integre a "1"? ¿Existen beneficios reales de usar la Distribución de Probabilidad Truncada en comparación con la Función de Distribución de Probabilidad original? ¿Existen aplicaciones o casos en el mundo real donde sea absolutamente necesario utilizar la Función de Distribución de Probabilidad Truncada en comparación con la Función de Distribución de Probabilidad original?

¡Gracias!

Referencias:

2voto

manku Puntos 111

@Xi'an ha mencionado el caso en el que tiene sentido tener $P(X > \eta) = 0,$ por lo que $X$ tiene un valor máximo natural.

En muchas aplicaciones de la distribución normal es natural tener $P(X < 0) = 0.$ Las alturas (en pulgadas) de las estudiantes mujeres podrían modelarse como $X\sim\mathsf{Norm}(\mu = 65, \sigma=3)$. Obviamente, no puede haber algo como una altura negativa, por lo que requerimos $P(X < 0) = 0.$ Pero esto a menudo se deja sin truncamiento formal porque $P(X < 0) \approx 0,$ sin ningún ajuste. El valor $0$ está a más de veinte desviaciones estándar por debajo de la media, y la probabilidad estándar más de cuatro desviaciones por debajo de la media ya es negligiblemente pequeña (alrededor de $.000032.)$ En R:

pnorm(0, 65, 3)
[1] 2.116566e-104
pnorm(65 - 12, 65, 3)
[1] 3.167124e-05

Sin embargo, si intentamos modelar alguna distribución inherentemente positiva como $\mathsf{Norm}(\mu=5, \sigma = 3),$ necesitamos lidiar con una probabilidad imposible implícita de valores negativos que asciende a casi $0.05,$ lo que podría llevar a errores notorios.

pnorm(0, 5, 3) 
[1] 0.04779035

La solución es aumentar la función de densidad de modo que su probabilidad positiva sea $1.$ Por lo tanto, inflamos la densidad $f(x)$ de $\mathsf{Norm}(5, 3)$ para que sea $g(x) = f(x)/0.9522,$ para $x>0,$ y todos los cálculos usando la función de densidad $g(x)$ serán precisos hasta al menos cuatro lugares decimales.

1 - pnorm(0, 5, 3)
[1] 0.9522096

Tienes una figura en tu Pregunta en estas líneas. Aquí están los gráficos de densidades $f(x)$ (marrón) y $g(x)$ (azul), mencionados anteriormente.

[![enter image description here](https://i.sstatic.net/XvSOU.png)

Código R para la figura.

hdr = "Densidades de NORM(5,3) y su Versión Truncada (azul)"
curve(dnorm(x,5,3), -3, 15, ylim = c(0,.14), lwd=2, 
  col="brown", ylab="Densidad", main=hdr)
 curve(dnorm(x,5,3)/(1-pnorm(0,5,3)), 0, 14, add=T, lwd=2, col="blue")
 abline(h=0, col="green2")
 abline(v=0, col="green2")

Así, usando la versión truncada $P(4 \le X \le 5) = 0.1371$ (densidad azul), no $0.1306$ (marrón).

diff(pnorm(c(4,5), 5, 3))
[1] 0.1305587
diff(pnorm(c(4,5), 5, 3))/0.9522
[1] 0.1371126

Nota: En la práctica puede valer la pena intentar encontrar una distribución que tenga naturalmente un soporte en la línea real positiva (por ejemplo, una distribución gamma), en lugar de usar una distribución normal truncada.

2voto

Aaron Puntos 36

Como parece haber adivinado (casi) correctamente, la distribución truncada surge al imponer la restricción en el soporte y luego multiplicarla por una constante de escala para que la densidad restringida se integre/sume a uno. Eso es todo lo que estamos haciendo cuando creamos una versión truncada de una distribución inicial.

En cuanto a cuándo es útil, es útil siempre que queramos condicionar en un rango restringido para la variable aleatoria observada. Esto ocurre en problemas de probabilidad condicional cuando especificamos una distribución inicial y luego condicionamos el valor en alguna parte restringida del rango permitido. También ocurre en casos en los que usamos una distribución aproximada para aproximar otra distribución en un soporte más pequeño. Por último, también ocurre en problemas con datos censurados, cuando condicionamos en la parte no censurada del rango de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X