El arrepentimiento es un criterio común para optimizar el aprendizaje en línea. Me pregunto si alguien conoce otros criterios alternativos para optimizar que se hayan propuesto o explorado en un problema de aprendizaje en línea. Se anima a dar referencias y enlaces a artículos, blogs, etc.
Respuesta
¿Demasiados anuncios?Se me ocurrió, tras reconsiderar esto de nuevo después de algunos meses, que el arrepentimiento puede definirse como una diferencia de una pérdida (promediada en el tiempo) y una pérdida esperada. Usando esta intuición la función de pérdida puede ser cualquier cosa.
En particular, si sólo puede sobre estimaciones puntuales, considere una función de pérdida lineal. Si le preocupan las varianzas, considere una función de pérdida cuadrática u otra función de pérdida elegida de forma similar para manejar las estimaciones de varianza. Para otros escenarios se aplican comentarios similares.