6 votos

¿El valor esperado de la derivada del logaritmo de la probabilidad evaluado en un cierto parámetro siempre tiene media negativa?

Se sabe que la derivada del logaritmo de la verosimilitud con respecto al parámetro de interés (el puntaje) tiene un valor esperado de cero.

Suponiendo que $f(z;\theta)$ es una función de densidad de probabilidad, la versión rápida de la prueba (omitir las cuestiones técnicas en la inversión de la derivada y la integral) es

$$\int \frac{\partial f(z;\theta)}{\partial \theta}dz=0 \Leftrightarrow \int \frac{f(z;\theta)}{f(z;\theta)} \frac{\partial f(z;\theta)}{\partial \theta}dz=0\Leftrightarrow \int f(z;\theta) \frac{\partial \log f(z;\theta)}{\partial \theta}dz=0$$

Me preguntaba si al tomar $\theta_1 > \theta$ el valor esperado del puntaje evaluado en $\theta_1$

$$\int f(z;\theta) \frac{\partial \log f(z;\theta_1)}{\partial \theta_1}dz$$

siempre era negativo. Lo he intentado para la media y la varianza de la distribución normal y para el parámetro de la distribución exponencial y se cumple. Aquí está la derivación para la exponencial:

Supongamos que $X \sim exp( \lambda)$. Tomemos $\lambda_1 > \lambda$ la derivada del logaritmo de la verosimilitud de la densidad exponencial con una observación es $$S(\lambda, x):=\frac{\partial }{ \partial \lambda} (\log(\lambda) - \lambda x) = \frac{1}{\lambda} - x$$

Entonces $$E[S(\lambda_1, X)] = E \left[ \frac{1}{\lambda_1} - X \right] = \frac{1}{\lambda_1} - \frac{1}{\lambda} < 0.$$

¿esto se cumple en general?

EDICIÓN: Estaba trabajando en una prueba solo para la familia exponencial de distribuciones pero no pude lograrlo, incluso un subcaso como la familia exponencial me sería interesante.

EDICIÓN2: después de pensar en esto por un tiempo, creo que una forma equivalente de plantear el problema es: "¿cuándo el estimador de máxima verosimilitud es insesgado? Entonces, ¿cuándo es insesgado?

0 votos

"Los parámetros de interés" deben especificarse claramente. ¿Solo necesitas investigar el parámetro de escala?

2voto

Contravariant Puntos 351

Su pregunta puede reformularse un poco en '¿el valor esperado de la derivada del logaritmo de la función de verosimilitud siempre apunta hacia el valor correcto?' (si no es así, entonces puedes convertirlo en un contraejemplo de tu hipótesis al cambiar opcionalmente el signo de $\theta$).

Esto no será cierto en general, podrías por ejemplo idear una distribución como:

$$ \sin(x + \theta)^2 / (1+x^2) $$

que es periódica en $\theta$, claramente la derivada en $\theta + 2\pi$ debe ser igual a la de $\theta$, y claramente $E_\theta[S(\theta_1, X)] = E_{\theta+2\pi}[S(\theta_1, X)]$ por lo que ambas no pueden apuntar al valor 'correcto' al mismo tiempo.

Sin embargo, tener una distribución de probabilidad donde varios $\theta$ son equivalentes claramente no es usual. Por lo tanto, necesitamos exigir algún tipo de 'unimodalidad'. Para ver qué tipo necesitamos, es instructivo sacar la derivada fuera de la expectativa:

$$ \begin{align} \int f(z;\theta) \frac{\partial \log f(z;\theta_1)}{\partial \theta_1} \,\mathrm{d}z &=\frac{\partial}{\partial \theta_1} \int f(z;\theta) \log f(z;\theta_1) \,\mathrm{d}z \end{align} $$

por lo que ahora estamos viendo la derivada (negativa) de la entropía cruzada (que también es la derivada de la divergencia de Kullback-Leibler), que es una medida de qué tan cerca está la distribución $f(z;\theta_1)$ de la distribución 'verdadera' $f(z;\theta)$. Ahora está claro por qué su derivada generalmente apunta en la dirección correcta, ya que en general esperaríamos que el modelo mejore si los parámetros están más cerca de sus valores reales.

De todos modos, a partir de esto podemos extraer una condición suficiente, pero tal vez no necesaria, que es que la distribución de probabilidad sea log-cóncava (es decir, $\log(f(z;\theta_1))$ es cóncava con respecto a $\theta_1$), en ese caso su valor esperado

$$ \int f(z;\theta) \log f(z;\theta_1) \,\mathrm{d}z $$

también es cóncavo, lo que significa en particular que su derivada es monótonamente no creciente y es $0$ en $\theta_1 = \theta$, esto es suficiente para concluir que $E_{\theta}[S(\theta_1, X)]$ apunta hacia $\theta$.

La distribución exponencial y la distribución normal son todas log-cóncavas con respecto a todos sus parámetros, pero ten en cuenta que la mayoría de las distribuciones se llaman log-cóncavas cuando son log-cóncavas con respecto al valor (aquí $z$) no a los parámetros (aquí $\theta_1$).

0 votos

¡Wow! ¡Gracias, esta es una gran respuesta! pero creo que hay un error en el cálculo de la derivada del logaritmo de probabilidad en la respuesta de @Alex, por lo que "invertir el signo de $\theta$" no funcionaría como contraejemplo. Es decir, creo que $E_{_1}(S(_2, X)) = - \frac{1}{_1} + \frac{1}{_2}$ ¿o estoy equivocado?

0 votos

Tampoco sabía que si la distribución de probabilidad era log-cóncava con respecto al parámetro $\theta$, entonces la expectativa también sería cóncava, ¿podrías proporcionarme una referencia? Gracias nuevamente por la respuesta tan detallada, esto me resuelve el problema.

1 votos

En realidad, lo que estoy insinuando es que $E_\theta(S(\theta_1, X))$ también debería cambiar de signo si cambias el signo de $\theta$ (una transformación de coordenadas normalmente no afecta el valor esperado, pero sí cambia el signo de $S$), de alguna manera esto no sucede en la respuesta de Alex, lo cual es sospechoso.

1voto

Alex Franko Puntos 89

$\def\e{\mathrm{e}}$Esto no es cierto en general. Por ejemplo, toma$$ f(x; θ) = -θ \e^{θx}, \quad x > 0 $$ donde $θ \in (-∞, 0)$, entonces por tu cálculo,$$ E_{θ_1}(S(θ_2, X)) = \frac{1}{θ_1} - \frac{1}{θ_2}, \quad \forall θ_1, θ_2 \in (-∞, 0) $$ y $E_{θ_1}(S(θ_2, X)) > 0$ para $θ_1 < θ_2 < 0$.

0 votos

Mientras esta respuesta me ayuda y me gusta, también es un poco insatisfactoria en el sentido de que si requiero que el parámetro sea estrictamente positivo, ¿podría surgir todavía un contraejemplo? Esto no significa una crítica en ningún sentido, más bien una crítica a mi pregunta original.

0 votos

Creo que hay un error de signo en los cálculos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X