¿Cómo elegir una función de pérdida para un determinado problema? (He mirado a través de stackexchange, y no he sido capaz de encontrar un hilo que trata sobre esto.)
Vamos a decir que observar algunos datos de x∈Rn, y estoy interesado en la estimación de algunos parámetros θ relacionados con la distribución de la que x vino. Supongamos que θ se encuentra en un ilimitado espacio de parámetros. Supongamos que estoy interesado en un estimador de la forma: ˆθ=argmin donde \mathcal{L} es una cierta pérdida de la función. Hay una serie de principios para elegir a \mathcal{L}?
Algunos comentarios:
- Una forma de elegir la función de pérdida sería a través de un probabilístico enfoque de modelado. Por ejemplo, el uso de cuadrados de error en la regresión podría estar motivado como ser natural derivada de la probabilidad de una gaussiana esférica con la covarianza. Sin embargo, esta función de pérdida ha recibido algún tipo de justificación en este contexto, más allá de los supuestos de normalidad de Gauss-Markov teorema.
- La pérdida de las funciones que he visto de GLMs también se derivan de consideraciones probabilísticas. Sin embargo, sabemos que el coeficiente estimado es robusta, ya que todavía será consistente, incluso si la distribución está mal especificada (siempre y cuando el enlace está correctamente especificado y todos los de la verdadera covariables incluidas.) (Ver Gourieroux, C., A. Monfort y A. Trognon. 1984. Pseudo métodos de máxima verosimilitud: de la teoría. Econometrica 52: 681-700.) Esto proporciona algunos (asintótica) solidez a la elección de la función de pérdida.
- Cuando se hace no negativo de la factorización de la matriz, se puede considerar que la probabilidad negativo cuando suponiendo que la matriz de entradas provienen de una distribución de Poisson. Sin embargo, podemos demostrar que la pérdida de la función derivada de esto es equivalente a (generalizada) de kullback-leibler divergencia. Véase, por ejemplo, la Relación entre la generación de Poisson y generalizada de Kullback-Leibler divergencia. Esto es bueno ya que proporciona una información de la teoría de la motivación de la pérdida de la función.
- La función de pérdida podrían ser escogidos por consideraciones prácticas, tales como la eficiencia computacional. Seguramente error cuadrado ha recibido el kilometraje por esta razón.
- Tal vez, si la situación lo requiere este tipo de propiedad, la pérdida de función puede ser derivada en un ad-hoc manera mediante la introducción de la asimetría en un simétrica de la función de pérdida.
- En el aprendizaje de máquina, las funciones objetivo se utilizan a menudo que no se derivan de los modelos probabilísticos; sin embargo, no estoy seguro de si esas funciones objetivo debe ser considerada pérdida de las funciones.
¿Hay alguna teoría sobre la elección y el efecto de la pérdida de la función?
Yo también estoy interesado en la elección de la función de pérdida cuando la determinación de la admisibilidad de un estimador. Así, en este escenario, un estimador es dado, y estamos interesados en determinar si el riesgo (o de la pérdida esperada) del estimador está siempre dominada por otro estimador. Hay un marco de referencia para elegir una función de pérdida en este valor, que es diferente en el lugar donde hacemos uso de la función de pérdida para producir un estimador?