Tengo un conjunto de datos (300.000 muestras) de imágenes en escala de grises de dimensiones 32x32. Hay dos clases y las muestras están casi igualmente equilibradas. Intento conseguir una clasificación binaria basada en las variaciones de la imagen, especialmente en los píxeles de los límites, es decir, las imágenes que tienen una intensidad mayoritariamente uniforme se etiquetarán como 0, mientras que las imágenes con más variaciones se etiquetarán como 1.
Empecé con una red pequeña, pero sólo obtuve una precisión del 54%. A partir de entonces, empecé a experimentar añadiendo más capas de convolución, aumentando el tamaño del filtro, reduciendo la tasa de aprendizaje, cambiando los optimizadores, etc. Utilicé la AlexNet modificada para el conjunto de datos CIFAR10, ya que éste también tiene sólo imágenes de 32x32. La diferencia está en el número de canales de imagen y el número de clases solamente. Sin embargo, sólo pude alcanzar una precisión del 64%.
Entiendo que con dos clases la precisión mínima será del 50%. Esto implica que mi red no está aprendiendo lo suficientemente bien. Ahora necesito saber si el problema está en mi enfoque, porque puede que no sea un simple problema de clasificación. También puede tener alguna información semántica. Necesito entender qué método de entrenamiento o red es adecuado para este tipo de problema. Estoy usando Tensorflow Tflearn.