8 votos

Función de verosimilitud de los datos truncados

Me cuesta un poco entender el concepto y la derivación de la probabilidad de los datos truncados.

Por ejemplo, si quiero encontrar la función de verosimilitud basada en una muestra de una distribución, pero al tomar una muestra de la distribución, observo los valores truncados (donde hay un corte de $M$ es decir, cualquier $x_{i}>M$ se registra como $M$ ):

$ x_{1}, x_{2}, M, x_{3}, M, x_{4}, x_{5}, ..., x_{10}$

donde el número de $M$ valores es $m$ . Entonces, la probabilidad está supuestamente dada por:

$L(x;\theta) = \prod_{i=1}^{10}f(x_{i};\theta)*[P(X>M)]^{m}$

Agradecería mucho una explicación/prueba de por qué esto es así, sobre todo por qué el segundo factor es como es. Intuitiva y matemáticamente si es posible. Muchas gracias de antemano.

0 votos

¿Qué son las minúsculas? $m$ "?

0 votos

Es el número de ocurrencias de $M$ es decir, he observado $10 + m$ puntos de datos, de los cuales $10$ no están truncados, y $m$ de ellos son (observo estos $m$ selecciones, todas con valor $M$ )

2 votos

Como señala @Alecos, estás utilizando "truncado" de forma idiosincrásica. "Censurado" es el término habitual.

8voto

Jeff Bauer Puntos 236

Lo que describes necesita un tratamiento especial, no es lo que solemos entender por "variables aleatorias truncadas" -y lo que solemos entender es que la variable aleatoria hace no fuera del soporte truncado, lo que significa que hay no una concentración de masa probabilística en el punto de truncamiento. Para contrastar los casos:

A) Significado "habitual" de un rv truncado
Para cualquier distribución que trunquemos su soporte, debemos "corregir" su densidad para que se integre a la unidad cuando se integre sobre el soporte truncado. Si la variable tiene soporte en $[a,b]$ , $-\infty < a < b < \infty$ , entonces (pdf $f$ , cdf $F$ )

$$\int_a^bf_X(x)dx = \int_a^Mf_X(x)dx+\int_M^bf_X(x)dx = \int_a^Mf_X(x)dx + \left[1-F_X(M)\right]=1 $$

$$\Rightarrow \int_a^Mf_X(x)dx = F_X(M)$$

Como el LHS es la integral sobre el soporte truncado, vemos que la densidad de la v.r. truncada, llámese $\tilde X$ , debe ser

$$f_{\tilde X}(\tilde x) = f_{X}(x\mid X\le M)=f_X(x)dx\cdot \left[F_X(M)\right]^{-1} $$ para que se integre a la unidad sobre $[a, M]$ . El término medio de la expresión anterior nos hace pensar en esta situación (con razón) como una forma de acondicionamiento -pero no sobre otra variable aleatoria, sino sobre los posibles valores que puede tomar la propia v.r. En este caso, se puede establecer una función de densidad/verosimilitud conjunta de una colección de $n$ los v.i.r. truncados serían $n$ veces la densidad anterior, como siempre.

B) Concentración de masa probabilística
Aquí, que es lo que describes en la pregunta, las cosas son diferentes. El punto $M$ concentra toda la masa de probabilidad que corresponde al soporte de la variable superior a $M$ . Esto crea un punto de discontinuidad en la densidad y hace que tenga dos ramas

$$\begin{align} f_{X^*}(x^*) &= f_X(x^*) \qquad x^*<M\\ f_{X^*}(x^*) &= P(X^* \ge M) \qquad x^*\ge M\\ \end{align}$$

Informalmente, el segundo es "como un v.r. discreto" en el que cada punto de la probabilidad masa representa las probabilidades reales. Supongamos ahora que tenemos $n$ tales variables aleatorias i.i.d, y queremos formar su función de densidad/verosimilitud conjunta. Antes de ver la muestra real, ¿qué rama debemos elegir? No podemos tomar esa decisión, así que tenemos que incluir de alguna manera ambas. Para ello tenemos que utilizar funciones indicadoras: denotemos $I\{x^*\ge M\}\equiv I_{\ge M}(x^*)$ la función indicadora que toma el valor $1$ cuando $x^*\ge M$ y $0$ de lo contrario. La densidad de tal v.r. puede escribirse

$$f_{X^*}(x^*) = f_X(x^*)\cdot \left[1-I_{\ge M}(x^*)\right]+P(X^* \ge M)\cdot I_{\ge M}(x^*) $$ y por tanto la función de densidad conjunta de $n$ tales variables i.i.d. es

$$f_{X^*}(\mathbf X^*\mid \theta) = \prod_{i=1}^n\Big[f_X(x^*_i)\cdot \left[1-I_{\ge M}(x^*_i)\right]+P(X^*_i \ge M)\cdot I_{\ge M}(x^*_i)\Big]$$

Ahora, lo anterior visto como una función de probabilidad, la muestra real que consiste en realizaciones de estos $n$ de las variables aleatorias entra en juego. Y en esta muestra, algunos observado realizaciones será inferior al umbral $M$ , algunos iguales. Denotemos $m$ el número de realizaciones en la muestra que es igual a $M$ y $v$ todo lo demás, $m+v=n$ . Es inmediato que para el $m$ realizaciones, la parte correspondiente de la densidad que permanecerá en la probabilidad será la $P(X^*_i \ge M)$ parte, mientras que para la $v$ realizaciones, la otra parte. Entonces

$$\begin{align} L(\theta\mid \{x_i^*;\,i=1,...n\})&= \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \prod_{j=1}^m\Big[P(X^*_j \ge M)\Big] \\& = \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \Big[P(X^* \ge M)\Big]^m\\ \end{align}$$

0 votos

Gracias. Aprecio mucho la respuesta. Supongo que mi principal problema es el primer punto del apartado b)... es decir, cómo se define la "segunda rama" del pdf. Es un pmf discreto y no define realmente un pdf desde la definición de un pdf. ¿Se podría explicar mejor este apartado? Muchas gracias.

0 votos

Estas variables aleatorias se denominan "de tipo mixto", es decir, son en parte continuas y en parte discretas. Intuitivamente tiene un sentido obvio, como muestran tus preguntas. Para un tratamiento riguroso, busque "variables aleatorias de tipo mixto" o "distribuciones de tipo mixto". No las confundas con "mezclas".

4voto

user10479 Puntos 395

La teoría de la probabilidad es un marco bastante general. La mayoría de los libros de texto exponen resultados para los casos separados de r.vs. continuos y para el de r.vs. discreto. Sin embargo, los casos mixtos se dan en la práctica, como ocurre en este caso.

Para una v.r. discreta $A$ la probabilidad de una observación $a$ es se define como la probabilidad de obtener el valor observado $a$ , digamos que $p_A(a)$ . Para una v.r. continua la probabilidad $L$ suele definirse como como la densidad en $x$ , digamos que $f_X(x)$ . Sin embargo, en la práctica sólo se sabe sabe que $x_{\textrm{L}} < X < x_{\textrm{U}}$ - debido a una precisión de medición limitada, y $\Pr\left\{x_{\textrm{L}} < X < x_{\textrm{U}}\right\}$ debe utilizarse como probabilidad. Tomando $x_{\textrm{L}}:= x - \textrm{d}x/2$ , $x_{\textrm{U}}:= x + \textrm{d}x/2$ con $\mathrm{d}x$ pequeño, obtenemos $f_X(x)$ hasta un multiplicativo $\mathrm{d}x$ que no importa. Por lo tanto, la definición habitual definición puede considerarse que asume implícitamente una precisión infinita en la observación.

Por un par de r.vs $A$ et $X$ con tipo de junta mixta discreto/continuo, la probabilidad será la distribución conjunta que suele expresarse mediante distribuciones condicionales, por ejemplo $$ L := \textrm{Pr}\left\{ A = a, \, x_{\textrm{L}} < X < x_{\textrm{U}} \right\} = \textrm{Pr}\left\{ A = a \right\} \times \textrm{Pr} \left\{x_{\textrm{L}} < X < x_{\textrm{U}} \, \vert\, A = a\right\}. $$ Así, para un intervalo $(x_{\textrm{L}},\, x_{\textrm{U}})$ con pequeñas longitud $\textrm{d}x$ , $L$ es $p_A(a)$ veces la densidad de $X$ con la condición de $\{A=a\}$ , digamos que $f_{X \vert A}(x \,\vert \,a)$ . De nuevo, omitimos el $\mathrm{d}x$ plazo.

Ahora volvamos a su ejemplo, y consideremos sólo uno observación. Entonces $A = 1_{\{X > M\}}$ es una v.r. Bernoulli con probabilidad de éxito probabilidad $\Pr\{X > M\}$ . En función de $X > M$ o no, ya sea que observa sólo $A = 1$ o se observan ambos $A = 0$ y el valor $x$ de $X$ . En ambos casos se utiliza la fórmula anterior, pero $(x_{\textrm{L}},\, x_{\textrm{U}})$ se toma como $(M,\,\infty)$ o como un intervalo de poca longitud $\textrm{d}x$ que contiene $x$ . De hecho, esto da $$ L = \begin{cases} \textrm{Pr} \left\{X > M \right\} \times 1 & \textrm{if } X > M \textrm{ i.e. } A =1,\\ \textrm{Pr} \left\{X \leq M\right\} \times f_{X \vert A}(x \,\vert \,a)\,\textrm{d}x & \textrm{if } X \leq M \textrm{ i.e. } A = 0. \end{cases} $$ Desde $f_{X \vert A}(x \,\vert \,0) = f_X(x) / \textrm{Pr} \left\{ X \leq M \right\}$ la probabilidad es simplemente $f_X(x)\,\textrm{d}x$ en el segundo caso y obtenemos la probabilidad reclamada, hasta el $\mathrm{d}x$ término para una observación con precisión infinita. Cuando observaciones independientes $A_i$ et $X_i$ se hacen, la probabilidad es se obtiene como el producto de las probabilidades marginales que conducen a la expresión de la pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X