“¿Cuál es la forma más correcta desde el punto de vista de la física teórica de calcular la entropía de una imagen?”
Una pregunta excelente y oportuna.
Contrariamente a la creencia popular, es posible definir de manera intuitiva (y teóricamente) natural la entropía de información de una imagen.
Considera la siguiente figura:
Podemos ver que la imagen diferencial tiene un histograma más compacto, por lo tanto, su entropía de información de Shannon es más baja. Por lo tanto, podemos obtener una menor redundancia utilizando la entropía de segundo orden de Shannon (es decir, entropía derivada de datos diferenciales). Si podemos extender esta idea isotrópicamente a 2D, entonces podríamos esperar buenas estimaciones para la entropía de información de la imagen.
Un histograma bidimensional de gradientes permite la extensión a 2D.
Podemos formalizar los argumentos y, de hecho, esto se ha completado recientemente. Recapitulando brevemente:
La observación de que la definición simple (ver, por ejemplo, la definición de entropía de imagen de MATLAB) ignora la estructura espacial es crucial. Para entender lo que está sucediendo, vale la pena regresar brevemente al caso de 1D. Desde hace mucho tiempo se sabe que utilizar el histograma de una señal para calcular su entropía de información/entropía de Shannon ignora la estructura temporal o espacial y da una estimación pobre de la compresibilidad o redundancia inherentes de la señal. La solución ya estaba disponible en el texto clásico de Shannon; utilizar las propiedades de segundo orden de la señal, es decir, las probabilidades de transición. La observación en 1971 (Rice & Plaunt) de que el mejor predictor de un valor de píxel en un escaneo de trama es el valor del píxel anterior lleva directamente a un predictor diferencial y a una entropía de Shannon de segundo orden que se alinea con ideas simples de compresión como la codificación por ejecución de longitud. Estas ideas se refinaron a finales de los años 80 dando lugar a algunas técnicas clásicas de codificación de imagen sin pérdida (diferencial) que aún se utilizan (PNG, JPG sin pérdidas, GIF, JPG2000 sin pérdidas) mientras que las wavelets y las DCT solo se utilizan para la codificación con pérdida.
Avanzando ahora a 2D; los investigadores encontraron muy difícil extender las ideas de Shannon a dimensiones superiores sin introducir una dependencia de orientación. Intuitivamente podríamos esperar que la entropía de información de Shannon de una imagen sea independiente de su orientación. También esperamos que las imágenes con estructura espacial complicada (como el ejemplo de ruido aleatorio del preguntante) tengan una entropía de información más alta que las imágenes con estructura espacial simple (como el ejemplo de escala de grises suave del preguntante). Resulta que la razón por la que fue tan difícil extender las ideas de Shannon de 1D a 2D es que hay una asimetría (unilateral) en la formulación original de Shannon que impide una formulación simétrica (isotrópica) en 2D. Una vez corregida la asimetría de 1D, la extensión a 2D puede proceder de forma fácil y natural.
Yendo al grano (los lectores interesados pueden consultar la exposición detallada en el preimpreso de arXiv enhttps://arxiv.org/abs/1609.01117) donde se calcula la entropía de imagen a partir de un histograma 2D de gradientes (función de densidad de probabilidad de gradientes).
Primero se calcula la función de densidad de probabilidad 2D mediante estimaciones de celdas de las derivadas x e y de las imágenes. Esto se asemeja a la operación de agrupamiento utilizada para generar el histograma de intensidad más común en 1D. Las derivadas pueden ser estimadas mediante diferencias finitas de 2 píxeles computadas en las direcciones horizontal y vertical. Para una imagen cuadrada NxN f (x, y) calculamos NxN valores de la derivada parcial fx y NxN valores de fy. Recorremos la imagen diferencial y para cada píxel usamos (fx,fy) para localizar una celda discreta en el array de destino (pdf 2D) que luego se incrementa en uno. Repetimos para todos los píxeles de NxN. El pdf 2D resultante debe normalizarse para tener una probabilidad unitaria total (simplemente dividiendo por NxN se logra esto). El pdf 2D está listo ahora para la siguiente etapa.
El cálculo de la entropía de información 2D de Shannon a partir del pdf de gradientes 2D es simple. La fórmula clásica de suma logarítmica de Shannon se aplica directamente excepto por un factor crucial de la mitad que proviene de consideraciones especiales de muestreo limitado en banda para una imagen de gradiente (ver el artículo de arXiv para más detalles). El factor de la mitad hace que la entropía 2D calculada sea aún menor en comparación con otros métodos (más redundantes) para estimar la entropía 2D o la compresión sin pérdidas.
Lamento no haber escrito las ecuaciones necesarias aquí, pero todo está disponible en el texto preimpreso. Los cálculos son directos (no iterativos) y la complejidad computacional es del orden de (el número de píxeles) NxN. La entropía de información de Shannon finalmente calculada es independiente de la rotación y corresponde precisamente con la cantidad de bits necesarios para codificar la imagen en una representación de gradiente no redundante.
Por cierto, la nueva medida de entropía 2D predice una entropía de 8 bits por píxel para la imagen aleatoria y 0.000 bits por píxel para la imagen de gradiente suave en la pregunta original.
2 votos
Creo que deberías mirar los campos aleatorios de Markov eg files.is.tue.mpg.de/chwang/papers/CVIU2013_MRFSurvey.pdf
1 votos
También matrices de coocurrencia de niveles de gris
0 votos
@seanv507, sí en efecto. Modelos gráficos no dirigidos o campos aleatorios de Markov es lo que estoy estudiando ahora. Publicaré de nuevo cuando sepa más.