9 votos

¿Cuál es la entropía teórica de la información y su significado físico?

He aprendido sobre entropía en mis clases de teoría de la información. La definición que obtuve de los libros de texto era el contenido promedio de información en una secuencia de mensajes, etc. Pero en uno de los videos del MIT relacionados con la teoría de la información, el profesor dijo que la entropía es la información que no tenemos respecto al mensaje. ¿Son ambas cosas iguales? Otro punto de vista sobre la entropía es la cantidad de desorden asociada con el mensaje. Mis dudas son las siguientes:

  1. Si decimos que la entropía del idioma inglés es de 2 bits y la del hindi es de 3, ¿qué significa eso?

  2. Los datos comprimidos normalmente tienen una entropía menor. ¿Significa eso que el desorden asociado con los datos comprimidos es menor?

  3. ¿Cuál es la importancia de la entropía relacionada con los genes (en biología) y la música, etc.?

  4. Por último, ¿cómo está relacionada la fuerza de una contraseña con la entropía?

Se agradece cualquier ayuda, enlaces o referencias.


NOTA MUY IMPORTANTE: Las respuestas relacionadas con mi segunda pregunta están creando cierta confusión. En primer lugar, debo haber especificado sobre el método de compresión (con pérdida o sin pérdida). Entonces estaba discutiendo esta pregunta con uno de mis amigos. Así que su argumento es el siguiente (y estoy feliz de aceptarlo, porque parece ser más lógico que otras explicaciones aquí.): Los datos comprimidos sin pérdidas y los datos originales tendrán la misma cantidad de entropía, ya que ambos tienen el mismo contenido de información. Pero si la compresión es con pérdida (como las de JPEG), tendrá menos entropía que la entropía de los datos originales, porque la compresión con pérdida ha perdido cierta cantidad de información en el proceso. Invito a aclaraciones/correcciones en forma de respuesta si alguien tiene una opinión diferente o puede dar una mejor respuesta.

0 votos

Un buen enlace relacionado con la pregunta es uwyo.edu/moorhouse/courses/5590/entropy_comparison.pdf

4voto

Jukka Dahlbom Puntos 1219

La entropía de un mensaje es una medida de cuánta información lleva.

Una forma de decir esto (según tu libro de texto) es que un mensaje tiene alta entropía si cada palabra (secuencia del mensaje) lleva mucha información. Otra forma de expresarlo es decir que si no entendemos el mensaje, perdemos mucha información; es decir, la entropía es una medida del número de cosas diferentes que el mensaje podría haber dicho. Todas estas definiciones son consistentes y, en cierto sentido, son lo mismo.

En respuesta a tu primera pregunta: la entropía de cada letra del idioma inglés es de aproximadamente dos bits, en contraste con una letra del hindi que aparentemente contiene $3$.

La pregunta que responde esta medida es esencialmente la siguiente: toma una oración aleatoria en inglés o hindi y elimina una letra al azar. En promedio, ¿cuántas letras posibles podríamos esperar que estén en ese espacio en blanco? En inglés, hay en promedio $2$ posibilidades. En hindi, $3$

EDICIÓN: la forma más sencilla de explicar estas medidas es que se necesitarían, en promedio, $2$ preguntas de sí/no para deducir una letra faltante en inglés y $3$ preguntas de sí/no para deducir una letra faltante en hindi. En promedio, de hecho hay el doble de letras en hindi (en "promedio", tendrías $2^3=8$ letras) que pueden rellenar una letra eliminada al azar en un pasaje en hindi en comparación con el número de letras en inglés (en "promedio", tendrías $2^2=4$ letras). Ver también el comentario de Chris más abajo para otra perspectiva.

Para una buena discusión sobre este tema en el contexto del lenguaje, recomiendo que eches un vistazo a esta página.

En cuanto a (2), no creo que pueda responder eso satisfactoriamente.

En cuanto a (3), hay mucho por hacer en la misma línea del lenguaje. Así como medimos la entropía por palabra, podríamos medir la entropía por frase musical o por par de bases. Esto podría darnos una forma de medir la importancia del ADN dañado/faltante, o el número de formas musicalmente atractivas de terminar una sinfonía. Una pregunta interesante sobre la música es ¿se nos acabará? (video).

La fortaleza de una contraseña se reduce a la siguiente pregunta: ¿cuántas contraseñas tiene que intentar adivinar un hacker antes de que pueda esperar entrar? Esto se puede responder muy bien a través de la entropía.

Espero que esto te haya ayudado.

0 votos

Carta, no palabra, eso fue un error. Otra forma de pensar en eso es suponiendo que ambos idiomas estén igualmente comprimidos, las oraciones en hindi deben ser más cortas de escribir.

0 votos

Ya yo también dudaba 'palabra'

2 votos

Me gusta la respuesta, pero no estoy de acuerdo con tu explicación de la entropía de los idiomas. No es cierto que si la entropía de un idioma es de N bits por letra, eso significa que hay aproximadamente N letras diferentes que podrían llenar el espacio en blanco si eliminaras una letra al azar (para empezar, depende de las unidades en las que mides la entropía: un lanzamiento de dados tiene 2.59 bits de entropía, 1.79 nats o 0.77 dígitos). En cambio, deberías pensar en términos de ratios de compresión. Dado que usamos 8 bits para representar el texto en inglés en ASCII, y tiene 2 bits de entropía por letra, deberíamos poder comprimirlo en un factor de 8/2 = 4.

3voto

Bitwise Puntos 715

En cuanto al número 2:

Si puedes comprimir un mensaje, significa que puede ser transmitido de una manera más corta, lo que significa que algunos de los bits no son necesarios. En la forma comprimida, el mensaje contendrá la misma cantidad de información utilizando menos bits, por lo que tendrá una entropía más baja (ahora los bits son más propensos a ser importantes para transmitir el mensaje).

0 votos

Pero ¿una entropía mayor significa un mayor desorden, verdad? Entonces, ¿los datos comprimidos son más desordenados?

0 votos

@dexterdev Disculpa, me refería a una entropía más baja (como mencionaste en tu pregunta), corregido ahora.

2voto

Josh Puntos 3582

El "desorden" al que te refieres no es desorden en un sentido físico: es una forma abstracta de hablar sobre la aleatoriedad. Los químicos y físicos hablan mucho sobre la entropía, que se refiere a cuán distribuida de forma aleatoria está la energía en un sistema. Está relacionado matemáticamente con la entropía en el sentido de la teoría de la información, pero por supuesto necesitas pensar en términos de diferentes analogías.

Entonces, ahora piensa en aleatoriedad en lugar de desorden. Una secuencia aleatoria tiene alta entropía porque, a diferencia del inglés, es muy difícil adivinar el siguiente símbolo/número/letra en la secuencia. Cuando comprimes datos, intentas reducir las redundancias. Esto reduce la entropía, porque se vuelve más difícil adivinar el siguiente símbolo. También hace que los datos se parezcan más a datos aleatorios. Cuanto más comprimidos estén los datos, más se parecen a datos aleatorios.

De manera similar, una contraseña elegida al azar es difícil de adivinar. Hay muchas posibilidades igualmente probables para la contraseña: tiene una alta entropía. Pero si la contraseña es mucho más probable que sea una palabra del diccionario, tiene una entropía más baja, porque algunas posibilidades son mucho más probables que otras.

Para dar un ejemplo más sencillo, tomemos una "contraseña" que consiste en un solo dígito del 0 al 9. Si la contraseña tiene la misma probabilidad de ser cualquier dígito, entonces la entropía de Shannon $-\sum{p_i \log p_i}$ sale como $-10\times(0.1 \log 0.1) \approx 3.3 \text{ bits} $.

Ahora, digamos que la gente elige el dígito más bonito. La mitad del tiempo eligen 0, y la otra mitad del tiempo eligen uno de los otros dígitos al azar. Es decir, un resultado tiene una probabilidad $\tfrac{1}{2}$, y nueve resultados tienen una probabilidad $\tfrac{1}{9\times2}$. Esta contraseña es mucho más fácil de adivinar: si adivinas 0, tendrás razón la mitad del tiempo. Y esta vez, la entropía de Shannon es de aproximadamente 2.58 bits. Esto es menor, reflejando lo fácil que es adivinar la contraseña.

Por supuesto, al igual que la aleatoriedad, la entropía depende de cómo estás modelando la entrada: es decir, qué probabilidad crees que tiene cada símbolo. Si un atacante no supiera que la contraseña era 0 la mitad del tiempo, aún le resultaría igual de difícil de adivinar que una contraseña aleatoria.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X