Tradicionalmente, extraemos las características predefinidas antes de la predicción.
datos -> características extraídas -> algoritmo de aprendizaje -> resultado
Sin embargo, las características diseñadas a mano limitan el rendimiento potencial, ya que algunas de ellas son una mala aproximación de la realidad y otras desechan información importante.
El aprendizaje de extremo a extremo significa que reemplazamos la cadena de procesamiento con un solo algoritmo de aprendizaje para que vaya directamente desde la entrada hasta la salida deseada, superando así las limitaciones del enfoque tradicional.
datos -> algoritmo de aprendizaje -> resultado
Los sistemas de aprendizaje de extremo a extremo tienden a funcionar mejor cuando hay una gran cantidad de datos etiquetados, ya que el algoritmo de aprendizaje puede aprender de alguna manera las características por sí mismo. Cuando el conjunto de entrenamiento es pequeño, tiende a funcionar peor que la cadena de procesamiento diseñada a mano.