4 votos

Consigue un vector representativo de un gran conjunto, y compáralo con muestras

Somos un pequeño equipo de programadores e intentamos resolver un pequeño problema, pero creemos que necesitamos algunos consejos de matemáticos profesionales.

Queremos saber si la foto de un carnet es un carnet de identidad o no, por lo que hemos implementado este algoritmo (he simplificado mucho para poder centrarnos en los problemas de matemáticas).

  1. Toma una muestra de un montón de tarjetas de identificación y haz un mapa a color de cada una de ellas. Este mapa es un vector de 360 dimensiones de valores decimales (un conjunto de 360 elementos).
  2. Con los datos anteriores, calculamos un vector representativo. En realidad, hacemos este vector representativo calculando la media aritmética de cada dimensión.
  3. Tomamos la imagen que queremos identificar, calculamos el vector del mapa de color y lo comparamos con el vector representativo. (Estamos usando el coeficiente de correlación de Pearson)
  4. Si el coeficiente está cerca de 1, nuestra imagen es una tarjeta de identificación.

Estamos obteniendo resultados razonables, pero estas son nuestras preguntas:

  1. ¿Hay algún método mejor que la media aritmética para construir el vector representativo?
  2. ¿Hay algún método mejor que el coeficiente de correlación de Pearson para comparar ambos vectores?

Editado : Nuestro plan es tener un vector representativo de muchos documentos: Tarjetas de identidad, licencias de conducir, pasaportes, tarjetas de residencia, etc., y tratar de identificar en qué categoría encaja mejor la tarjeta que estamos comparando.

Cada dimensión del vector (que llamamos mapa de colores) representa el porcentaje de píxeles de la imagen que tienen ese color. La suma de todos los valores del vector es siempre el 100%

La razón principal por la que estamos usando Pearson es porque pensamos que con él, el resultado no se ve afectado por el número de píxeles de la imagen, y los resultados empíricos parecen confirmar ese hecho. (obtenemos exactamente los mismos resultados usando porcentajes o simplemente usando el conteo de colores) pero tenemos que admitir que tenemos un conocimiento limitado de las estadísticas, por lo que podríamos haber tomado una decisión equivocada (en esta decisión, o en otras).

4voto

matt Puntos 11

Como usted lo ha descrito, tiene un problema que es extremadamente general. Tan general que casi todos los problemas de clasificación en el aprendizaje de la máquina pueden ser expresados de esta manera. Tu algoritmo parece estar bien, pero el campo del aprendizaje automático no es sólo ese algoritmo. Casi todas las técnicas pueden ser aplicadas a tu problema.

Creo que deberías comprobar si los carnets de identidad se dividen en grupos, por ejemplo, carnets de conducir y carnets de empresa. Su método actual asume que las tarjetas de identificación forman un grupo esféricamente simétrico, pero si los datos se dividen naturalmente en dos o más grupos, entonces podría mejorar comprobando la pertenencia a cada grupo por separado. Si hay algunos valores atípicos, tal vez quieras usar una mediana en lugar de una media.

No me queda claro por qué está usando la correlación de Pearson en lugar de la distancia euclidiana. Tal vez tenga sentido si esperas que las entradas sean escaladas por algún factor de brillo, y quieres asignar el mismo valor de probabilidad a las versiones más brillantes u oscuras de la misma imagen. De cualquier manera, también puedes escalar las dimensiones por separado, y creo que una escala razonable sería por la desviación estándar del conjunto de entrenamiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X