9 votos

¿Es apropiado utilizar el término "bits" para hablar de un cociente de probabilidad log-base-2?

Estoy bastante enamorado de los cocientes de probabilidad como medio de cuantificar las pruebas relativas en los esfuerzos científicos. Sin embargo, en la práctica me parece que el cociente de probabilidades en bruto puede llegar a ser excesivamente grande, por lo que he optado por transformarlo en logaritmo, lo que tiene la agradable ventaja de representar las pruebas a favor/en contra del denominador de forma simétrica (es decir, el valor absoluto del cociente de probabilidades logarítmico representa la fuerza de las pruebas y el signo indica qué modelo, el numerador o el denominador, es el modelo apoyado). Ahora bien, ¿qué base de logaritmo elegir? La mayoría de las métricas de probabilidad utilizan log-base-e, pero me parece una base poco intuitiva. Durante un tiempo utilicé log-base-10, que aparentemente fue apodado el " prohibir " de Alan Turing y tiene la agradable propiedad de que uno puede discernir fácilmente los órdenes de magnitud relativos de las pruebas. Hace poco se me ocurrió que también podría ser útil emplear log-base-2, en cuyo caso pensé que podría ser apropiado utilizar el término "bit" para referirse a los valores resultantes. Por ejemplo, un cociente de probabilidad bruto de 16 se transformaría en 4 bits de evidencia para el denominador en relación con el numerador. Sin embargo, me pregunto si este uso del término "bit" viola su sentido convencional de teoría de la información. ¿Alguna idea?

0 votos

Si ya estás bien con la prohibición, entonces también deberías estar bien con el bit. (es decir, no hace falta la justificación completa que he dado a continuación). Pasar de ban a bits es sólo un cambio de unidades, log base 2 en lugar de base 10. (Del mismo modo, ve con "nats" si te gusta la base e).

12voto

user5289 Puntos 1342

Creo que está perfectamente justificado. (De hecho, he utilizado esta convención en trabajos que he publicado; o puedes llamarlos "nats" si prefieres seguir con logaritmos de base $e$ ).

La justificación es la siguiente: la log-verosimilitud del modelo ajustado puede verse como una estimación de Monte Carlo de la Divergencia KL entre la distribución "verdadera" (desconocida) de los datos y la distribución implícita en el modelo ajustado. Sea $P(x)$ denota la "verdadera" distribución de los datos, y dejemos que $P_\theta(x)$ denotan la distribución (es decir, la probabilidad $P(x|\theta))$ proporcionada por un modelo.

El ajuste de máxima verosimilitud consiste en maximizar

$L(\theta) = \frac{1}{N}\sum_i \log P_\theta(x_i) \approx \int P(x) \log P_\theta(x) dx$

El lado izquierdo (la probabilidad logarítmica, escalada por el número de puntos de datos $N$ ) es una estimación de Montecarlo para el lado derecho, es decir, como los puntos de datos $x_i$ se extrajeron de $P(x)$ . Así que podemos reescribir

$L(\theta) \approx \int P(x) \log P_\theta(x) dx = \int P(x) \log \frac{P_\theta(x)}{P(x)} dx + \int P(x) \log P(x)dx$

$ = -D_{KL}(P,P_\theta) - H(x)$

Así, la log-verosimilitud normalizada por el número de puntos es una estimación de la divergencia KL (negativa) entre $P$ y $P_\theta$ menos la (verdadera) entropía de $x$ . La divergencia KL tiene unidades de "bits" (si usamos log 2), y puede entenderse como el número de "bits extra" que se necesitarían para codificar los datos de $P(x)$ utilizando un libro de códigos basado en $P_\theta(x)$ . (Si $P = P_\theta$ no se necesitan bits adicionales, por lo que la divergencia KL es cero).

Ahora bien: cuando se toma la relación log-verosimilitud de dos modelos diferentes, debería ser obvio que se termina con:

$\log \frac{P_{\theta_1(x)}}{P_{\theta_2}(x)} \approx D_{KL}(P,P_{\theta_2}) - D_{KL}(P,P_{\theta_1})$

La entropía $H(x)$ términos de anulación. Por lo tanto, la relación logarítmica de probabilidad (normalizada por $N$ ) es una estimación de la diferencia entre la divergencia KL de la distribución verdadera y la distribución proporcionada por el modelo 1, y la distribución verdadera proporcionada por el modelo 2. Por lo tanto, es una estimación del número de "bits extra" que necesitas para codificar tus datos con el modelo 2 en comparación con la codificación con el modelo 1. Así que creo que las unidades de "bits" están perfectamente justificadas.

Una advertencia importante: cuando se utiliza esta estadística para la comparación de modelos, se debe utilizar realmente el LLR calculado en validación cruzada datos. La probabilidad logarítmica de formación Los datos suelen ser artificialmente altos (favoreciendo al modelo con más parámetros) debido al sobreajuste. Es decir, el modelo asigna a estos datos una probabilidad mayor de la que tendría si se ajustara a un conjunto infinito de datos de entrenamiento y luego se evaluara en los puntos $x_i \dots x_N$ en su conjunto de datos. Así que el procedimiento que sigue mucha gente es:

  1. entrenar los modelos 1 y 2 con datos de entrenamiento;

  2. evaluar la relación log-verosimilitud de un conjunto de datos de prueba e informar del número resultante en unidades de bits como medida de la mejora del "código" proporcionado por el modelo 1 en comparación con el modelo

El LLR evaluado en los datos de entrenamiento generalmente daría una ventaja injusta al modelo con más parámetros / grados de libertad.

0 votos

Pero la aproximación a la divergencia KL es aproximada, ¿no? Sólo es buena hasta un factor de escala constante. Así que si el logaritmo de la razón de verosimilitud es 2, eso sólo te dice que hay una diferencia de $2x$ bits, donde $x$ es desconocido. Por lo tanto, no dice nada en esencia. Además, la aproximación asume un tamaño de muestra infinito, y para tamaños de muestra finitos, la divergencia KL no debería depender del tamaño de la muestra, pero la probabilidad logarítmica sí. No veo cómo puede funcionar lo que dices.

0 votos

No, te equivocas. Mira la declaración: Es un estimación de la divergencia KL. Es una estimación de Monte Carlo: converge asintóticamente de acuerdo con el CLT. (Fíjate bien, hay un factor de 1/N delante). Así que su precisión dependerá del número de muestras, pero esto será cierto para cualquier cantidad calculada a partir de muestras. En el límite, el log LLR será (como se ha dicho) la diferencia entre el número de bits extra necesarios para codificar una muestra media con el modelo #2 frente al modelo #1.

1 votos

@jpillow gran respuesta, gracias ... ¿Crees que también tendría sentido dividir el LLR por el número de muestras (es decir, la longitud de los datos), y luego presentar los resultados como "bits / muestra"? En mi caso, la muestra es una unidad experimentalmente significativa, no un tamaño de recipiente arbitrario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X