42 votos

¿Por qué son útiles las probabilidades logarítmicas?

Las probabilidades de las observaciones de una variable aleatoria están en el rango $[0,1]$ mientras que las probabilidades logarítmicas las transforman a la escala logarítmica. ¿Cuál es entonces el rango correspondiente de las probabilidades logarítmicas, es decir, en qué se convierte una probabilidad de 0, y es el mínimo del rango, y en qué se convierte una probabilidad de 1, y es el máximo del rango de probabilidades logarítmicas? ¿Cuál es la intuición de que esto tenga alguna utilidad práctica en comparación con $[0,1]$ ?

Sé que las probabilidades logarítmicas permiten realizar cálculos numéricos estables como la suma, pero además de la aritmética, ¿cómo mejora esta transformación las aplicaciones en comparación con el caso en que se utilizan las probabilidades brutas en su lugar? un ejemplo comparativo para una variable aleatoria continua antes y después de la logarítmica sería bueno

63voto

Eero Puntos 1612

El registro de $1$ es sólo $0$ y el límite como $x$ se acerca a $0$ (del lado positivo) de $\log x$ es $-\infty$ . Por tanto, el rango de valores de las probabilidades logarítmicas es $(-\infty, 0]$ .

La verdadera ventaja está en la aritmética. Las probabilidades logarítmicas no son tan fáciles de entender como las probabilidades (para la mayoría de la gente), pero cada vez que se multiplican dos probabilidades (que no sean $1 \times 1 = 1$ ), terminará con un valor más cercano a $0$ . Tratando con números muy cercanos a $0$ puede volverse inestable con aproximaciones de precisión finita, por lo que trabajar con registros hace las cosas mucho más estables y, en algunos casos, más rápidas y fáciles. ¿Por qué necesitas más justificación que esa?

29voto

John Madden Puntos 320

Me gustaría añadir que tomar el logaritmo de una probabilidad o densidad de probabilidad puede simplificar a menudo ciertos cálculos, como el cálculo del gradiente de la densidad dados algunos de sus parámetros. Esto es en particular cuando la densidad pertenece a la familia exponencial, que a menudo contienen menos llamadas a funciones especiales después de ser registradas que antes. Esto hace que tomar la derivada a mano sea más sencillo (ya que las reglas de producto se convierten en reglas de suma más sencillas), y también puede llevar a cálculos de derivadas numéricas más estables, como la diferenciación finita.

Como ilustración, tomemos la Poisson con función de probabilidad $e^{-\lambda}\frac{\lambda^{x}}{x!}$ . Aunque $x$ es discreta, esta función es suave con respecto a $\lambda$ y se convierte en $\log f_x= -\lambda + x*\log(\lambda) - \log(x!)$ para una derivada con respecto a $\lambda$ de simplemente $\frac{\partial \log f_x}{\partial \lambda} = -1 + \frac{x}{\lambda}$ que implica dos simples operaciones. Contrasta con $\frac{\partial f_x}{\partial \lambda} = \frac{e^{-\lambda } (x-\lambda ) \lambda ^{x-1}}{x!}$ que implica la exponenciación natural, la exponenciación real, el cálculo de un factorial y, lo que es peor, la división por un factorial. Esto implica tanto más tiempo de cálculo como menos estabilidad de cálculo, incluso en este sencillo ejemplo. El resultado se agrava para funciones de probabilidad más complejas, así como cuando se observa una muestra i.i.d de variables aleatorias, ya que éstas se suman en el espacio logarítmico mientras se multiplican en el espacio de probabilidad (de nuevo, complicando el cálculo de la derivada, así como introduciendo más del error de punto flotante mencionado en la otra respuesta).

Estas expresiones de gradiente se utilizan en el cálculo analítico y numérico del Máximo a Posteriori ( $\ell_0$ Bayes) y los estimadores de máxima verosimilitud. También se utiliza en la solución numérica de las ecuaciones de estimación del Método de los Momentos, a menudo mediante el método de Newton, que implica el cálculo del hessiano o las segundas derivadas. En este caso, la diferencia entre la complejidad registrada y la no registrada puede ser enorme. Y, por último, se utiliza para mostrar la equivalencia entre los mínimos cuadrados y la máxima verosimilitud con una estructura de error gaussiana.

8voto

Daniel Hatton Puntos 151

Como ejemplo del proceso mencionado en la respuesta de Greg Snow: Con bastante frecuencia utilizo lenguajes de programación de alto nivel (Octave, Maxima[*], Gnuplot, Perl,...) para calcular cocientes entre verosimilitudes marginales para la comparación de modelos bayesianos. Si se intenta calcular la relación de probabilidades marginales directamente, los pasos intermedios del cálculo (y a veces también el resultado final) superan con mucha frecuencia las capacidades de la implementación de números en coma flotante en el intérprete/compilador, produciendo números tan pequeños que el ordenador no puede distinguirlos de cero, cuando toda la información importante está en el hecho de que esos números no son realmente cero. Si, por el contrario, se trabaja en probabilidades logarítmicas en todo momento, y se toma la diferencia entre los logaritmos de las probabilidades marginales al final, este problema es mucho menos probable que ocurra.

[*] A veces Maxima elude el problema utilizando aritmética de números racionales en lugar de aritmética de punto flotante, pero no se puede confiar necesariamente en esto.

5voto

Franklin Piat Puntos 246

Puede que esto no sea lo que le interese, pero las probabilidades logarítmicas en física estadística están estrechamente relacionados con los conceptos de energía y entropía . Para un sistema físico en equilibrio a temperatura $T$ (en kelvin), la diferencia de energía entre dos microestados A y B está relacionada con el logaritmo de las probabilidades de que el sistema esté en el estado A o en el estado B:

$$E_\mathrm{A} - E_\mathrm{B} =-k_\mathrm{B}T \left[ \ln(P_\mathrm{A}) - \ln( P_\mathrm{B}) \right]$$

Así pues, los físicos estadísticos suelen trabajar con probabilidades logarítmicas (o versiones escaladas de las mismas), porque son físicamente significativas. Por ejemplo, la energía potencial de una molécula de gas en una atmósfera a una temperatura fija bajo un campo de gravitación uniforme (una buena aproximación cerca de la superficie de la Tierra) es $mgh$ , donde $m$ es la masa de la molécula de gas, $g$ es la aceleración de la gravedad, y $h$ es la altura de la molécula sobre la superficie. La probabilidad de encontrar una molécula de gas en la planta superior del edificio frente a la planta inferior (suponiendo que las plantas tienen el mismo volumen y la altura del suelo al techo es pequeña) viene dada por:

$$mg (h_\mathrm{top} - h_\mathrm{bottom}) \approx -k_\mathrm{B} T \left[ \ln (P_\mathrm{top}) - \ln(P_\mathrm{bottom}) \right]$$

Esta probabilidad está relacionada trivialmente con la concentración del gas en los dos pisos. Los pisos más altos tienen una concentración menor y la concentración de las moléculas más pesadas decae más rápidamente con la altura.

En física estadística, suele ser útil alternar entre cantidades proporcionales a las probabilidades logarítmicas (energía, entropía, entalpía, energía libre) y cantidades proporcionales a la probabilidad (número de microestados, función de partición, densidad de estados).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X