Tengo algunas preguntas que me han estado preocupando por un tiempo.
La prueba de entropía se utiliza a menudo para identificar datos encriptados. La entropía alcanza su máximo cuando los bytes de los datos analizados están distribuidos uniformemente. La prueba de entropía identifica datos encriptados, porque estos datos tienen una distribución uniforme, al igual que los datos comprimidos, que se clasifican como encriptados al usar la prueba de entropía.
Ejemplo: La entropía de un archivo JPG es de 7,9961532 bits/byte, la entropía de un contenedor TrueCrypt es de 7,9998857. Esto significa que con la prueba de entropía no puedo detectar una diferencia entre datos encriptados y comprimidos. PERO: como puedes ver en la primera imagen, obviamente los bytes del archivo JPG no están distribuidos uniformemente (al menos no tan uniformemente como los bytes del contenedor TrueCrypt).
Otra prueba puede ser el análisis de frecuencia. Se mide la distribución de cada byte y se realiza, por ejemplo, una prueba de chi-cuadrado para comparar la distribución con una distribución hipotética. como resultado, obtengo un valor p. cuando realizo esta prueba en datos JPG y TrueCrypt, el resultado es diferente.
El valor p del archivo JPG es 0, lo que significa que la distribución desde un punto de vista estadístico no es uniforme. El valor p del archivo TrueCrypt es 0,95, lo que significa que la distribución es casi perfectamente uniforme.
Ahora mi pregunta: ¿Alguien puede decirme por qué la prueba de entropía produce falsos positivos como este? ¿Es la escala de la unidad en la que se expresa el contenido de la información (bits por byte)? ¿Es, por ejemplo, el valor p una "unidad" mucho mejor, debido a una escala más fina?
¡Muchas gracias a todos por cualquier respuesta/idea!
Imagen JPG Contenedor TrueCrypt