21 votos

¿Es la única opción para la medición de información?

Cuando nos cuantificar la información, utilizamos $I(x)=-\log{P(x)}$ donde $P(x)$ es la probabilidad de algún evento $x$. La explicación que yo siempre tengo, y estaba satisfecho con, hasta ahora, es que para dos eventos independientes, para encontrar la probabilidad de que ambos se multiplican, y nos gustaría intuitivamente desea que la información de cada evento para sumar para el total de la información. Así que tenemos $I(x \cdot y) = I(x) + I(y)$. La clase de logaritmos $k \log(x)$ para algunas constantes $k$ satisfacer esta identidad, y elegimos $k=-1$ hacer de la información una medida positiva.

Pero me pregunto si los logaritmos son más que una elección sensata. Son la única opción? Yo no puedo pensar de otra clase de funciones que satisfacen la identidad básica. Incluso en Shannon original del documento sobre la teoría de la información, que no dice es la única opción, justificó su decisión diciendo que los registros se ajusta a lo que esperan y son fáciles de trabajar. ¿Hay más?

22voto

Hagen von Eitzen Puntos 171160

Queremos clasificar todas continua(!) funciones de $I\colon(0,1]\to\Bbb R$$I(xy)=I(x)+I(y)$. Si $I$ es una función de este tipo, podemos definir la (también continouus) la función $f\colon[0,\infty)\to \Bbb R$ $f(x)=I(e^{-x})$ (con ese $x\ge 0$ implica $e^{-x}\in(0,1]$). A continuación, para $f$ tenemos la ecuación funcional $$f(x+y)=I(e^{-(x+y)})=I(e^{-x}e^{-y})=I(e^{-x})+I(e^{-y})=f(x)+f(y).$$ Vamos $$ S:=\{\,a\in[0,\infty)\mid \forall x\in[0,\infty)\colon f(ax)=af(x)\,\}.$$ Entonces trivialmente $1\in S$. También, $f(0+0)=f(0)+f(0)$ implica $f(0)=0$$0\in S$. Por la ecuación funcional, $S$ es cerrado bajo la suma: Si $a,a'\in S$, para todos los $x\ge 0$, tenemos $$f((a+a')x)=f(ax+a'x)=f(ax)+f(a'x)=af(x)+a'f(x)=(a+a')f(x)$$ and so als $a+a'\in S$.

Mediante esto se demuestra por inducción que $\Bbb N\subseteq S$: Tenemos $1\in S$; y si $n\in S$ también $n+1\in S$ (debido a $1\in S$).

La próxima nota de que si $a,b\in S$$b>0$, para todos los $x\ge0$ hemos $f(a\frac xb)=af(\frac xb)$ $f(x)=f(b\frac xb)=bf(\frac xb)$ , es decir, $f(\frac ab x)=\frac abf(x)$$\frac ab\in S$. Como $\Bbb N\subseteq S$, esto implica que $S$ contiene todos los racionales positivos, $\Bbb Q_{>0}\subseteq S$.

En particular, si dejamos $c:=f(1)$, $f(x)=cx$ todos los $x\in \Bbb Q_{>0}$. Como queríamos funciones continuas, se deduce que el $f(x)=cx$ todos los $x\in[0,\infty)$. Entonces $$ I(x)=f(-\ln x)=-c\ln x.$$

Nota: La solicitud de continuidad de $I$ (y, por tanto,$f$) es, por supuesto razonable en el contexto dado. Pero resulta que mucho más suave restrictons en $f$ suficiente para hacer valer el resultado, como se encuentran. Es sólo sin tales restricciones que el Axioma de Elección nos suministra altamente no-continua de nuevas soluciones a la ecuación funcional. El original de la observación de que los registros no se ajuste a lo que esperamos y es fácil trabajar con ellos es un eufemismo si siquiera se piensa de considerar estos no continua de soluciones.

11voto

Andrew Whitehouse Puntos 1353

Sólo quería señalar algo, pero sinceramente, creo que las otras respuestas son mucho mejor dado que esta es una de matemáticas sitio. Sólo estoy señalando a añadir otro argumento de por qué logaritmo tiene sentido como la única opción.

Usted tiene que preguntarse lo que la información aún es. ¿Qué es la información?

La información es la capacidad para distinguir las posibilidades.1

1 Comparar con la energía en la física: la capacidad para realizar trabajo o producir calor.

Bueno, vamos a empezar a razonar.

Cada bit (= bdisciplinaria digit) de información (por definición) distinguir 2 posibilidades, porque puede tener 2 valores diferentes. Del mismo modo, todos los n bits de información pueden distinguir $2^n$ posibilidades.

Por lo tanto: la cantidad de información necesaria para distinguir $2^n$ de las posibilidades de las $n$ bits.
Y el mismo razonamiento funciona independientemente de si usted está hablando acerca de la base 2 o 3 o correo.
Así que es evidente que usted tiene que tomar el logaritmo si el número de posibilidades es una potencia entera de la base.

Ahora, ¿qué pasa si el número de posibilidades no es una potencia de $b = 2$ (o lo que su base es)?
En este caso usted está buscando una función que coincide con el logaritmo en las potencias enteras.

En este punto, me gustaría estar convencido de utilizar el logaritmo de la misma (otra cosa podría parecer extraño), pero esto es donde un matemático podría invocar los razonamientos mencionados en los otros argumentos (continuidad o aditividad para eventos independientes o lo que sea) para mostrar que no hay ninguna otra función podría satisfacer criterios razonables sobre el contenido de la información.

1voto

Geoff Jacobsen Puntos 31

Mi entendimiento es que $-\log$ proporciona una asignación $({\mathbb R}_{\geq 0},+,\cdot)\rightarrow({\mathbb R}\cup\{\infty\},\min,+)$ entre semirings (multiplicatively un homomorfismo monoid). Es monótonamente decreciente y mapas grandes probabilidades de bajo peso y viceversa. Esto se utiliza en ciertos modelos estadísticos como la alineación de la secuencia y modelo ocultado de Markov. La asignación se refiere a la tropicalización veces. Echa un vistazo en el trabajo de Bernd Sturmfels et al.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X