Digamos que tengo secuencias de símbolos que pueden tener cinco valores : A, B, C, X, Y. La longitud media de las secuencias es aproximadamente 7. Es importante que los símbolos A, B, C tengan una mayor importancia que X e Y, que puede considerarse como "cualquier cosa diferente de A, B o C".
Necesito clasificar esos datos entre dos clases: positivos y negativos. La clase positiva se compone de secuencias generalmente bien alineadas como
X X A B Y C
A B C X X
A Y A X B C X X
Observe que los ejemplos positivos tienen generalmente los símbolos A,B y C en ese orden.
Los ejemplos negativos parecen más "desordenados" como
B X A X X X X C
C A Y Y X X B
Mi primer pensamiento fue que la entropía era la clave de ese problema. Revisé varios artículos pero nada me satisfizo realmente. Así que mi pregunta es:
¿Qué características utilizaría con fines de clasificación?