30 votos

Función de máxima verosimilitud para una distribución de tipo mixto

En general maximizamos una función

$$ L(\theta; x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i \mid \theta) $$

donde $f$ es una función de densidad de probabilidad si la distribución subyacente es continua, y una función de masa de probabilidad (con suma en lugar de producto) si la distribución es discreta.

¿Cómo especificamos la función de verosimilitud si la distribución subyacente es una mezcla entre una distribución continua y una discreta, en la que los pesos de cada una dependen de $\theta$ ?

18voto

jldugger Puntos 7490

Reconozco haberme planteado esta pregunta durante bastante tiempo al principio de mi carrera. Una forma de convencerme de la respuesta fue adoptar una visión extremadamente práctica y aplicada de la situación, una visión que reconoce ninguna medida es perfecta. Veamos a dónde nos lleva.

El objetivo de este ejercicio es exponer los supuestos que podrían ser necesarios para justificar la mezcla un tanto simplista de densidades y probabilidades en las expresiones de las probabilidades. Por lo tanto, resaltaré estos supuestos siempre que se introduzcan. Resulta que se necesitan bastantes, pero son bastante suaves y cubren todas las aplicaciones que he encontrado (que obviamente serán limitadas, pero aún así incluyen bastantes).

El problema se refiere a un mixto distribución $F,$ que no es ni absolutamente continua ni singular. Teorema de descomposición de Lebesgue nos permite ver dicha distribución como una mezcla de una absolutamente continua (que por definición tiene una función de densidad $f_a$ ) y una singular ("discreta"), que tiene una función de masa de probabilidad $f_d.$ (Voy a ignorar la posibilidad de que exista un tercer componente, continuo pero no absolutamente continuo. Quienes utilizan esos modelos suelen saber lo que hacen y suelen tener todos los conocimientos técnicos para justificarlos).

En $F = F_\theta$ es miembro de una familia paramétrica de distribuciones, podemos escribir

$$F_\theta(x) = F_{a\theta}(x) + F_{d\theta}(x) = \int_{\infty}^x f_a(t;\theta)\mathrm{d}t + \sum_{t \le x} f_d(t;\theta).$$

(La suma es a lo sumo contable, por supuesto.) Aquí, $f_a(\,;\theta)$ es una función de densidad de probabilidad multiplicada por algún coeficiente de mezcla $\lambda(\theta)$ y $f_d(\,;\theta)$ es una función de masa de probabilidad multiplicada por $1-\lambda(\theta).$

Interpretemos cualquier observación $x_i$ en un conjunto de datos iid $X=(x_1,x_2,\ldots, x_n)$ como "realmente" significa que tenemos conocimiento cierto de que un hipotético valor subyacente verdadero $y_i$ se encuentra en un intervalo $(x_i-\delta_i, x_i+\epsilon_i]$ en torno a $x_i,$ pero por lo demás no tienen información sobre $y_i.$ Suponiendo que conozcamos todos los deltas y los épsilones, esto ya no plantea ningún problema para construir una probabilidad, porque todo puede expresarse en términos de probabilidades:

$$\mathcal{L}(X;\theta) = \prod_i \left(F_\theta(x_i + \epsilon_i) - F_\theta(x_i - \delta_i)\right).$$

Si el apoyo de $F_{d\theta}$ no tiene puntos de condensación en ningún $x_i,$ su contribución a la probabilidad se reducirá a lo sumo a un único término siempre que los épsilons y los deltas sean lo suficientemente pequeños: no habrá contribución cuando $x_i$ no está en su apoyo.

Si suponemos $f_a(\,;\theta)$ es Lipschitz continuo en todos los valores de los datos, entonces uniformemente en los tamaños de los épsilones y deltas podemos aproximar la parte absolutamente continua de $F_\theta(x_i)$ como

$$F_{a\theta}(x_i + \epsilon_i) - F_{a\theta}(x_i - \delta_i) = f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|).$$

La uniformidad de esta aproximación significa que a medida que tomamos tous que los épsilons y los deltas se hagan pequeños, tous el $o()$ términos también se hacen pequeños. En consecuencia, existe un valor infinitamente pequeño $\epsilon(\theta)\gt 0,$ gobernada por las contribuciones de todos estos términos de error, para los que

$$\eqalign{ \mathcal{L}(X;\theta) &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|) + f_d(x_i;\theta)\right)\\ &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + f_d(x_i;\theta)\right)\ + \ o(\epsilon(\theta)). }$$

Esto sigue siendo un poco lioso, pero muestra por dónde vamos. En el caso de datos censurados, normalmente sólo una parte de cada término del producto será distinta de cero, porque estos modelos suelen suponer que el soporte de la parte singular de la distribución es disjunto del soporte de la parte continua, sea cual sea el parámetro $\theta$ podría ser. (Concretamente: $f_d(x) \ne 0$ implica $F_a(x+\epsilon)-F_a(x-\epsilon) = o(\epsilon).$ ) Esto nos permite dividir el producto en dos partes y podemos factorizar las contribuciones de todos los intervalos fuera de la parte continua:

$$\mathcal{L}(X;\theta) = \left(\prod_{i=1}^k (\epsilon_i + \delta_i) \right)\prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta).$$

(Sin pérdida de generalidad, he indexado los datos de modo que $x_i, i=1, 2, \ldots, k$ contribuyen a la parte continua y por lo demás $x_i, i=k+1, k+2, \ldots, n$ contribuyen a la parte singular de la probabilidad).

Esta expresión deja claro que

Dado que las anchuras de intervalo $\epsilon_i+\delta_i$ son fijos, no contribuyen a la probabilidad (que se define sólo hasta algún múltiplo constante positivo).

En consecuencia, podemos trabajar con la expresión

$$\mathcal{L}(X;\theta) = \prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta)$$

al construir cocientes de probabilidad o maximizar la probabilidad. Lo bueno de este resultado es que nunca necesitamos conocer los tamaños de los intervalos finitos que se utilizan en esta derivación: los épsilones y los deltas desaparecen. Sólo necesitamos saber que podemos hacerlos lo suficientemente pequeños para que la expresión de probabilidad con la que trabajamos sea una aproximación adecuada a la expresión de probabilidad que utilizaríamos si conociéramos los tamaños de los intervalos.

13voto

Aaron Puntos 36

Esta cuestión es un problema fundacional extremadamente importante en el análisis de probabilidades, y también muy sutil y difícil, por lo que me sorprenden bastante algunas de las respuestas superficiales que está recibiendo en los comentarios.

En cualquier caso, en esta respuesta sólo voy a añadir un pequeño punto a whuber's excelente respuesta (que creo que es el enfoque correcto de este problema). Ese punto es que las funciones de verosimilitud en este contexto provienen de funciones de densidad sobre una medida dominante mixta, y esto conduce a la interesante propiedad de que podemos escalar los tamaños relativos de la función de verosimilitud arbitrariamente sobre las partes continuas y discretas y seguimos teniendo una función de verosimilitud válida . Esto da lugar a la pregunta obvia de cómo podemos aplicar técnicas de verosimilitud cuando no existe una función de verosimilitud única.

Ilustrar este punto requiere una presentación preliminar de la densidad de muestreo como derivada de Radon-Nikodym de la medida de probabilidad. En primer lugar, mostraré cómo obtener una función de densidad para una medida dominante mixta y, a continuación, mostraré por qué esto conduce a la capacidad de escalar las partes continuas y discretas de la probabilidad a voluntad. Por último, discutiré las implicaciones de esta cuestión para el análisis basado en la verosimilitud y daré mi opinión sobre su resolución. Creo que esto se resuelve esencialmente con el método whuber presenta en su respuesta, pero habría que ampliarlo en la dirección que he comentado en los comentarios a esa respuesta, para asegurar que cada punto en el soporte de la parte discreta ignora la parte continua en ese punto.


Expresar la densidad utilizando una medida dominante: El enfoque estándar para tratar con densidades mixtas para variables aleatorias reales es utilizar Medida de Lebesgue $\lambda_\text{LEB}$ como medida dominante para la parte continua y medida de recuento $\lambda_\text{COUNT}$ (sobre algún conjunto contable especificado $\mathcal{D} \subset \mathbb{R}$ ) como medida dominante para la parte discreta. Esto conduce a la derivada de Radon-Nikodym definida por:

$$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f(x | \theta) \ d \lambda_\text{LEB}(x) + \int \limits_\mathcal{A} p(x | \theta) \ d\lambda_\text{COUNT}(x).$$

(Obsérvese que esta última integral degenera en una suma sobre los elementos $x \in \mathcal{A} \cap \mathcal{D}$ . Lo escribimos aquí como una integral para que quede más clara la similitud entre los dos términos). Se puede utilizar una densidad única tomando la medida $\lambda_* \equiv \lambda_\text{LEB} + \lambda_\text{COUNT}$ y el entorno:

$$f_*(x | \theta) \equiv \mathbb{I}(x \notin \mathcal{D}) \cdot f(x | \theta) + \mathbb{I}(x \in \mathcal{D}) \cdot p(x | \theta).$$

Utilizando $\lambda_*$ como medida dominante, tenemos entonces la siguiente expresión para la probabilidad de interés:

$$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f_*(x | \theta) \ d \lambda_*(x).$$

Esto demuestra que la función $f_*$ es una derivada Radon-Nikodym válida de la medida de probabilidad sobre $X$ por lo que es una densidad válida para esta variable aleatoria. Como depende de $x$ y $\theta$ podemos entonces definir una función de verosimilitud válida $L_x^*(\theta) \propto f_*(x | \theta)$ manteniendo $x$ fijo y tratarlo como una función de $\theta$ .


Efecto del escalado de las medidas dominantes: Ahora que entendemos la extracción de una densidad a partir de una medida dominante, esto nos lleva a una extraña propiedad en la que podemos escalar los tamaños relativos de la verosimilitud sobre las partes continua y discreta y seguimos teniendo una función de verosimilitud válida. Si ahora utilizamos la medida dominante $\lambda_{**} \equiv \alpha \cdot \lambda_\text{LEB} + \beta \cdot \lambda_\text{COUNT}$ para algunas constantes positivas $\alpha > 0$ y $\beta > 0$ entonces obtenemos ahora la densidad Radon-Nikodym correspondiente:

$$f_{**}(x | \theta) \equiv \frac{\mathbb{I}(x \notin \mathcal{D})}{\alpha} \cdot f(x | \theta) + \frac{\mathbb{I}(x \in \mathcal{D})}{\beta} \cdot p(x | \theta).$$

Utilizando $\lambda_{**}$ como medida dominante, tenemos entonces la siguiente expresión para la probabilidad de interés:

$$\mathbb{P}(X \in \mathcal{A} | \theta) = \int \limits_\mathcal{A} f_{**}(x | \theta) \ d \lambda_{**}(x).$$

Como en el caso anterior, podemos definir una función de verosimilitud válida $L_x^{**}(\theta) \propto f_{**}(x | \theta)$ manteniendo $x$ fijo y tratarlo como una función de $\theta$ . Se puede ver que la libertad de variar $\alpha$ y $\beta$ ahora nos da libertad para escalar los tamaños relativos de las partes continuas y discretas en la función de verosimilitud tanto como queramos, y seguir teniendo una función de verosimilitud válida (aunque con respecto a una medida dominante diferente, con el correspondiente escalado de las partes).

Este resultado concreto es sólo una parte del resultado más general de que toda función de verosimilitud se define con respecto a alguna medida dominante (implícita) subyacente, y no hay ninguna función de verosimilitud única que pueda definirse independientemente de esta medida subyacente. $^\dagger$ No obstante, en este caso concreto vemos que sigue basándose en una medida dominante que es una combinación de la medida de Lebesgue y la medida de recuento, por lo que en realidad no hemos jugado mucho con la medida. Puesto que no hay justificación objetiva para formar la medida dominante a partir de ponderaciones iguales de la medida de Lebesgue y la medida de recuento, la implicación de esto es que no hay justificación objetiva para la escala relativa de las partes continua y discreta de la función de verosimilitud.


Implicaciones para el análisis de probabilidades: Puede parecer que esto nos pone en un dilema. Podemos aumentar o disminuir arbitrariamente el tamaño relativo de las partes discreta y continua de la función de verosimilitud y seguir teniendo la misma razón para afirmar que se trata de una función de verosimilitud válida. Afortunadamente, este problema puede resolverse reconociendo que las constantes de escala saldrán de la función de verosimilitud del mismo modo que se ilustra en whuber's respuesta. Es decir, si tenemos $x_1,...,x_k \notin \mathcal{D}$ y $x_{k+1},...,x_n \in \mathcal{D}$ lo conseguiremos:

$$\begin{equation} \begin{aligned} L_\mathbb{x}^{**}(\theta) = \prod_{i=1}^n L_{x_i}^{**}(\theta) &= \prod_{i=1}^n f_{**}(x_i | \theta) \\[12pt] &= \Bigg( \prod_{i=1}^k \frac{1}{\alpha} \cdot f(x_i | \theta) \Bigg) \Bigg( \prod_{i=k+1}^n \frac{1}{\beta} \cdot p(x_i | \theta) \Bigg) \\[12pt] &= \frac{1}{\alpha^k \beta^{n-k}} \Bigg( \prod_{i=1}^k f(x_i | \theta) \Bigg) \Bigg( \prod_{i=k+1}^n p(x_i | \theta) \Bigg) \\[12pt] &= \frac{1}{\alpha^k \beta^{n-k}} \prod_{i=1}^n f_{*}(x_i | \theta) \\[12pt] &\propto \prod_{i=1}^n f_{*}(x_i | \theta) \\[12pt] &= \prod_{i=1}^n L_{x_i}^{*}(\theta) \\[12pt] &= L_\mathbb{x}^{*}(\theta). \\[12pt] \end{aligned} \end{equation}$$

Esto demuestra que las propiedades de escalado de la medida dominante sólo afectan a la función de verosimilitud a través de una constante de escalado que puede ignorarse en los problemas estándar de MLE. Observe que en mi tratamiento de este problema, esta propiedad útil se ha producido como resultado directo del hecho de que la densidad de muestreo se define de una manera que ignora la densidad continua cuando estamos en el soporte de la parte discreta. (Esto difiere de whuber's respuesta, donde permite una combinación de estas partes. Creo que en realidad esto podría dar lugar a algunos problemas difíciles; véanse mis comentarios a esa respuesta).


$^\dagger$ Este resultado no se limita a los casos mixtos. Incluso en casos sencillos con variables aleatorias continuas o discretas, si se varía la medida dominante subyacente se producirá una variación correspondiente en la derivada de Radon-Nikodym, lo que conduce a una función de verosimilitud diferente.

3voto

kjetil b halvorsen Puntos 7012

Un ejemplo en el que ocurre esto, es decir, la verosimilitud dada por un modelo de probabilidad de tipo mixto continuo/discreto, es con datos censurados. Véase un ejemplo en Regresión de errores normales ponderados con censura .

En general, esto puede formularse utilizando la teoría de medidas. Supongamos entonces un modelo estadístico con una función modelo $f(x;\theta)$ que es una derivada de Radon-Nikodym con respecto a una medida común $\lambda$ (que no debería depender del parámetro $\theta$ ). Entonces la función de verosimilitud basada en una muestra independiente $x_1, x_2, \dotsc, x_n$ es $\prod_i f(x_i;\theta)$ . Esto es realmente igual en casos continuos, discretos y mixtos.

Un ejemplo sencillo podría ser la modelización de las precipitaciones diarias. Podría ser cero, con probabilidad positiva o positiva. Así que para la medida dominante $\lambda$ podríamos utilizar la suma de la medida de Lebesgue sobre $(0,\infty)$ y un átomo a cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X