Creo que básicamente has dado en el clavo en la pregunta, pero de todas formas voy a ver si puedo añadir algo. Voy a responder a esto de una manera un poco indirecta ...
El campo de Estadísticas robustas examina la cuestión de qué hacer cuando falla la hipótesis gaussiana (en el sentido de que hay valores atípicos):
se suele suponer que los errores de los datos se distribuyen normalmente, al menos de forma aproximada, o que se puede confiar en el teorema del límite central para obtener estimaciones con distribución normal. Por desgracia, cuando hay valores atípicos en los datos, los métodos clásicos suelen tener un rendimiento muy pobre
También se han aplicado en el ámbito de la medicina tradicional, por ejemplo, en Mika el al. (2001) Un enfoque de programación matemática para el algoritmo Kernel Fisher describen cómo Pérdida robusta de Huber puede utilizarse con el KDFA (junto con otras funciones de pérdida). Por supuesto, se trata de una pérdida de clasificación, pero el KFDA está estrechamente relacionado con la máquina de vectores de relevancia (véase la sección 4 del documento de Mika).
Como se deduce de la pregunta, existe una estrecha relación entre las funciones de pérdida y los modelos de error bayesianos (véase aquí para un debate).
Sin embargo, suele ocurrir que, en cuanto se empiezan a incorporar funciones de pérdida "extrañas", la optimización se vuelve difícil (nótese que esto también ocurre en el mundo bayesiano). Por ello, en muchos casos se recurre a funciones de pérdida estándar que son fáciles de optimizar, y en su lugar se realiza un preprocesamiento adicional para garantizar que los datos se ajustan al modelo.
El otro punto que mencionas es que el CLT sólo se aplica a las muestras que son IID. Esto es cierto, pero entonces los supuestos (y el análisis que los acompaña) de la mayoría de los algoritmos son los mismos. Cuando se empiezan a analizar datos que no son IID, las cosas se vuelven mucho más complicadas. Un ejemplo es si hay dependencia temporal, en cuyo caso el enfoque típico es suponer que la dependencia sólo abarca una determinada ventana, y las muestras pueden, por tanto, considerarse aproximadamente IID fuera de esta ventana (véase, por ejemplo, este brillante pero difícil artículo Límites cromáticos PAC-Bayes para datos no IID: Aplicaciones a los procesos de clasificación y mezcla estacionaria ), tras lo cual se puede aplicar el análisis normal.
Así que, sí, se reduce en parte a la conveniencia, y en parte porque en el mundo real, la mayoría de los errores parecen (aproximadamente) gaussianos. Por supuesto, siempre hay que tener cuidado cuando se examina un nuevo problema para asegurarse de que no se violan los supuestos.
0 votos
¿De qué configuración hablas? ¿Clasificación, regresión o algo más general?
0 votos
Hice la pregunta para el caso general. La mayoría de las historias comienzan con el supuesto de error gaussiano. Pero, personalmente, mi propio interés es la factorización de matrices y las soluciones de modelos lineales (por lo que decir la regresión).
0 votos
Es relevante: stats.stackexchange.com/questions/120776/