Somos un pequeño equipo de programadores e intentamos resolver un pequeño problema, pero creemos que necesitamos algunos consejos de matemáticos profesionales.
Queremos saber si la foto de un carnet es un carnet de identidad o no, por lo que hemos implementado este algoritmo (he simplificado mucho para poder centrarnos en los problemas de matemáticas).
- Toma una muestra de un montón de tarjetas de identificación y haz un mapa a color de cada una de ellas. Este mapa es un vector de 360 dimensiones de valores decimales (un conjunto de 360 elementos).
- Con los datos anteriores, calculamos un vector representativo. En realidad, hacemos este vector representativo calculando la media aritmética de cada dimensión.
- Tomamos la imagen que queremos identificar, calculamos el vector del mapa de color y lo comparamos con el vector representativo. (Estamos usando el coeficiente de correlación de Pearson)
- Si el coeficiente está cerca de 1, nuestra imagen es una tarjeta de identificación.
Estamos obteniendo resultados razonables, pero estas son nuestras preguntas:
- ¿Hay algún método mejor que la media aritmética para construir el vector representativo?
- ¿Hay algún método mejor que el coeficiente de correlación de Pearson para comparar ambos vectores?
Editado : Nuestro plan es tener un vector representativo de muchos documentos: Tarjetas de identidad, licencias de conducir, pasaportes, tarjetas de residencia, etc., y tratar de identificar en qué categoría encaja mejor la tarjeta que estamos comparando.
Cada dimensión del vector (que llamamos mapa de colores) representa el porcentaje de píxeles de la imagen que tienen ese color. La suma de todos los valores del vector es siempre el 100%
La razón principal por la que estamos usando Pearson es porque pensamos que con él, el resultado no se ve afectado por el número de píxeles de la imagen, y los resultados empíricos parecen confirmar ese hecho. (obtenemos exactamente los mismos resultados usando porcentajes o simplemente usando el conteo de colores) pero tenemos que admitir que tenemos un conocimiento limitado de las estadísticas, por lo que podríamos haber tomado una decisión equivocada (en esta decisión, o en otras).