Mi pregunta está relacionada con el ajuste de distribuciones personalizadas en R pero creo que tiene suficiente elemento probabilístico como para quedarse en CV.
Tengo un interesante conjunto de datos que presenta las siguientes características:
- Masa grande a cero
- Masa considerable por debajo de un umbral que se ajusta muy bien a una distribución paramétrica sesgada a la derecha.
- Pequeña cantidad de masa en valores extremos
- Una serie de covariables que deben impulsar la variable de interés
Esperaba poder modelizar esto utilizando un enfoque de distribución cero-inflada, ampliamente explorado en la literatura. Esencialmente, la densidad es:
$$f_{Y}(y)=\begin{cases} \pi \quad\quad\quad\quad\,\,\,\,\,\,,\,\,y=0 \\ (1-\pi)f_X(y),\,\,y>0 \end{cases}$$
Esto es bastante fácil de instalar tal cual. Sin embargo, me gustaría que el parámetro de mezcla $\pi$ dependa de las covariables $Z$ mediante una regresión logística:
$$\text{logit}(\mathbb{E}[\pi\,|\,Z])=\beta Z$$ donde $\beta$ es un vector de coeficientes para las covariables. Además, debido a la naturaleza de cola extrema de mis datos, mi distribución $f_{X}(y)$ encaja mejor con un enfoque de valor extremo:
$$f_{X}(y)=\begin{cases} f_{A}(y;a,b) \quad\,\,\,\,\,\,\,,\,y\leq \mu \\ (1-F_{A}(\mu))\cdot\text{GPD}\bigg(y;\mu,\sigma=\frac{(1-F_{A}(\mu))}{f_{A}(\mu)},\xi\bigg),\,y>\mu \end{cases}$$ donde $\text{GPD}(y;\mu,\sigma,\xi)$ se refiere a la distribución de Pareto generalizada, que modela el exceso por encima de un determinado umbral $\mu$ y $f_{A}(y;a,b)$ es una distribución asimétrica dada con parámetros de escala y forma $a$ y $b$ respectivamente. La caracterización anterior garantiza que las densidades son continuas en $y=\mu$ (aunque no diferenciable) y que $f_{X}(y)$ se integra en 1.
Además, lo ideal sería que los parámetros de las distribuciones anteriores también dependieran de las covariables:
$$f_{A}(y;a,b,\beta Z)$$ $$\text{GPD}\bigg(y;\mu,\sigma=\frac{(1-F_{A}(\mu))}{f_{A}(\mu)},\xi,\beta Z\bigg)$$
Me doy cuenta de que la configuración anterior es bastante compleja, pero me preguntaba si hay una manera de derivar las estimaciones MLE de cada uno de los parámetros deseados mediante la maximización de la función de verosimilitud es decir, para obtener:
$$\hat{\xi}, \hat{a}, \hat{b}, \hat{\beta}$$
¿Hay alguna forma factible/ideal de hacerlo en R? Tanto en lo que respecta a mi problema específico como al ajuste de distribuciones personalizadas en general.