1 votos

Clasificación de imágenes en escala de grises basada en la variación de la intensidad de los píxeles

Tengo un conjunto de datos (300.000 muestras) de imágenes en escala de grises de dimensiones 32x32. Hay dos clases y las muestras están casi igualmente equilibradas. Intento conseguir una clasificación binaria basada en las variaciones de la imagen, especialmente en los píxeles de los límites, es decir, las imágenes que tienen una intensidad mayoritariamente uniforme se etiquetarán como 0, mientras que las imágenes con más variaciones se etiquetarán como 1.

Empecé con una red pequeña, pero sólo obtuve una precisión del 54%. A partir de entonces, empecé a experimentar añadiendo más capas de convolución, aumentando el tamaño del filtro, reduciendo la tasa de aprendizaje, cambiando los optimizadores, etc. Utilicé la AlexNet modificada para el conjunto de datos CIFAR10, ya que éste también tiene sólo imágenes de 32x32. La diferencia está en el número de canales de imagen y el número de clases solamente. Sin embargo, sólo pude alcanzar una precisión del 64%.

Entiendo que con dos clases la precisión mínima será del 50%. Esto implica que mi red no está aprendiendo lo suficientemente bien. Ahora necesito saber si el problema está en mi enfoque, porque puede que no sea un simple problema de clasificación. También puede tener alguna información semántica. Necesito entender qué método de entrenamiento o red es adecuado para este tipo de problema. Estoy usando Tensorflow Tflearn.

2voto

photox Puntos 196

Sus capas de convolución y agrupación pueden estar desechando la información que desea. Parece que sus imágenes no tienen el tipo de características, como bordes/formas, que normalmente serían fáciles para una red de convolución. Es posible que tenga que hacer algo de ingeniería de características / manipulación de datos. Si la mayoría de sus características se encuentran en el borde, podría simplemente tomar todos esos valores, para un borde de 32x32 tendría 124 píxeles de borde, y hacerlos estandarizados/normalizados y simplemente alimentar eso en una capa densa. La red puede clasificar fácilmente dado algo similar.

0 votos

¿Qué tal un histograma de las imágenes? Reduciría el tamaño del vector de 1024 a 256 y tendría más sentido. A partir de ahí, puedo utilizar un clasificador basado en ML como SVM o quizás Random Forest.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X