Necesito utilizar la DCT en fotogramas de vídeos como vector de características para entrenar una red neuronal artificial Feed-forward, pero el problema es el gran número de coeficientes (en miles, más o menos). ¿Cómo puedo elegir algunos de estos coeficientes y seguir capturando la mayor parte de la información de mi imagen (fotograma)?
Respuesta
¿Demasiados anuncios?Esto depende de lo que usted considere información relevante, que a su vez depende del tipo de características de la imagen que le interesen.
Los coeficientes de una DCT describen una estructura de grano progresivamente más fino en una imagen. Por lo tanto, si le interesan las características a escala relativamente grande de su imagen, como los objetos en movimiento en el primer plano, probablemente sólo le interesen los coeficientes de baja frecuencia. En cambio, si le interesan las características a pequeña escala, como la textura de los materiales, los componentes de alta frecuencia son mucho más relevantes. La figura siguiente (de Wikipedia ) muestra los distintos componentes de la DCT, que van desde la baja frecuencia en la parte superior izquierda, hasta la alta frecuencia en la parte inferior derecha.
Como enfoque rápido y sucio, lo más probable es que la información que se busca esté encapsulada en los primeros coeficientes de baja frecuencia. Puedes probar a establecer un corte KK y sólo se aceptan los coeficientes Xi,jXi,j donde i2+j2<Ki2+j2<K . El valor adecuado de este corte puede determinarse por ensayo y error, o por validación cruzada.