Estoy tratando de obtener una perspectiva global sobre algunas de las ideas esenciales en el aprendizaje automático, y me preguntaba si hay un tratamiento exhaustivo de las diferentes nociones de pérdida (al cuadrado, log, bisagra, proxy, etc.). Estaba pensando en algo parecido a una presentación más completa y formal del excelente post de John Langford sobre Semántica de la función de pérdida .
Respuestas
¿Demasiados anuncios?El Tutorial sobre el aprendizaje basado en la energía de LeCun et al. puede ayudarle a recorrer una buena parte del camino. Describen una serie de funciones de pérdida y discuten lo que las hace "buenas o malas" para los modelos basados en la energía.
La función de pérdida viene dada por el problema. Puede ser cualquier cosa. Por ejemplo, también se podría penalizar el tiempo y el espacio de la CPU utilizados.
En el aprendizaje por refuerzo, la función de pérdida es una función no determinista desconocida. No se puede redefinir sin cambiar el problema.
Sé que esta pregunta es un poco antigua, pero es algo que me interesa actualmente.
Un artículo muy bueno sobre el tema de las funciones de pérdida convexas y la consistencia del clasificador es " Comportamiento estadístico y consistencia de los métodos de clasificación basados en la minimización del riesgo convexo "por Tong Zhang.