Lamentablemente, la respuesta de @Sycorax, aunque detallada, es incorrecta.
En realidad, un excelente ejemplo de regresión mediante entropía cruzada categórica -- Wavenet -- ha sido implementado en TensorFlow .
El principio consiste en discretizar el espacio de salida y, a continuación, el modelo sólo predice la casilla correspondiente; véase la sección 2.2 del documento papel para ver un ejemplo en el ámbito de la modelización del sonido. Así pues, aunque técnicamente el modelo realiza una clasificación, la tarea resuelta en última instancia es la regresión.
Una desventaja obvia es que se pierde resolución de salida. Sin embargo, esto puede no ser un problema (al menos creo que el asistente artificial de Google. habló una voz muy humana ) o puede jugar con algún postprocesado, por ejemplo interpolando entre el contenedor más probable y sus dos vecinos.
Por otra parte, este enfoque hace que el modelo sea mucho más potente en comparación con la salida habitual de una sola unidad lineal, es decir, permite expresar predicciones multimodales o evaluar su confianza. Hay que tener en cuenta, no obstante, que esto último puede conseguirse de forma natural por otros medios, por ejemplo, con una salida de varianza (logarítmica) explícita, como en los autocodificadores variacionales.
De todos modos, este enfoque no se adapta bien a salidas más dimensionales, porque entonces el tamaño de la capa de salida crece exponencialmente, lo que lo convierte en un problema tanto computacional como de modelado