25 votos

¿Por qué suponemos que el error se distribuye normalmente?

Me pregunto por qué utilizamos la hipótesis gaussiana al modelar el error. En Curso de ML de Stanford El profesor Ng lo describe básicamente de dos maneras:

  1. Es matemáticamente conveniente. (Está relacionado con el ajuste por mínimos cuadrados y es fácil de resolver con la pseudoinversa)
  2. Debido al Teorema del Límite Central, podemos suponer que hay muchos hechos subyacentes que afectan al proceso y la suma de estos errores individuales tenderá a comportarse como en una distribución normal de media cero. En la práctica, parece que es así.

De hecho, me interesa la segunda parte. El Teorema Central del Límite funciona para muestras iid, hasta donde yo sé, pero no podemos garantizar que las muestras subyacentes sean iid.

¿Tiene alguna idea sobre la suposición gaussiana del error?

0 votos

¿De qué configuración hablas? ¿Clasificación, regresión o algo más general?

0 votos

Hice la pregunta para el caso general. La mayoría de las historias comienzan con el supuesto de error gaussiano. Pero, personalmente, mi propio interés es la factorización de matrices y las soluciones de modelos lineales (por lo que decir la regresión).

0 votos

11voto

A.Schulz Puntos 264

Creo que básicamente has dado en el clavo en la pregunta, pero de todas formas voy a ver si puedo añadir algo. Voy a responder a esto de una manera un poco indirecta ...

El campo de Estadísticas robustas examina la cuestión de qué hacer cuando falla la hipótesis gaussiana (en el sentido de que hay valores atípicos):

se suele suponer que los errores de los datos se distribuyen normalmente, al menos de forma aproximada, o que se puede confiar en el teorema del límite central para obtener estimaciones con distribución normal. Por desgracia, cuando hay valores atípicos en los datos, los métodos clásicos suelen tener un rendimiento muy pobre

También se han aplicado en el ámbito de la medicina tradicional, por ejemplo, en Mika el al. (2001) Un enfoque de programación matemática para el algoritmo Kernel Fisher describen cómo Pérdida robusta de Huber puede utilizarse con el KDFA (junto con otras funciones de pérdida). Por supuesto, se trata de una pérdida de clasificación, pero el KFDA está estrechamente relacionado con la máquina de vectores de relevancia (véase la sección 4 del documento de Mika).

Como se deduce de la pregunta, existe una estrecha relación entre las funciones de pérdida y los modelos de error bayesianos (véase aquí para un debate).

Sin embargo, suele ocurrir que, en cuanto se empiezan a incorporar funciones de pérdida "extrañas", la optimización se vuelve difícil (nótese que esto también ocurre en el mundo bayesiano). Por ello, en muchos casos se recurre a funciones de pérdida estándar que son fáciles de optimizar, y en su lugar se realiza un preprocesamiento adicional para garantizar que los datos se ajustan al modelo.

El otro punto que mencionas es que el CLT sólo se aplica a las muestras que son IID. Esto es cierto, pero entonces los supuestos (y el análisis que los acompaña) de la mayoría de los algoritmos son los mismos. Cuando se empiezan a analizar datos que no son IID, las cosas se vuelven mucho más complicadas. Un ejemplo es si hay dependencia temporal, en cuyo caso el enfoque típico es suponer que la dependencia sólo abarca una determinada ventana, y las muestras pueden, por tanto, considerarse aproximadamente IID fuera de esta ventana (véase, por ejemplo, este brillante pero difícil artículo Límites cromáticos PAC-Bayes para datos no IID: Aplicaciones a los procesos de clasificación y mezcla estacionaria ), tras lo cual se puede aplicar el análisis normal.

Así que, sí, se reduce en parte a la conveniencia, y en parte porque en el mundo real, la mayoría de los errores parecen (aproximadamente) gaussianos. Por supuesto, siempre hay que tener cuidado cuando se examina un nuevo problema para asegurarse de que no se violan los supuestos.

1 votos

+1 Muchas gracias especialmente por mencionar lo de las estadísticas robustas y no robustas. He observado que la mediana y la media recortada alfa suelen funcionar mejor que la media en la práctica, pero no conocía la teoría que las sustenta.

3 votos

Otro elemento de conveniencia asociado a los datos con distribución normal es que la correlación 0 implica independencia.

3 votos

El comentario sobre el IID no es del todo correcto. Hay (varios) teoremas centrales del límite muy generales que se aplican cuando los resultados son independientes pero no están idénticamente distribuidos; véase, por ejemplo, el CLT de Lindeberg. También hay resultados CLT que ni siquiera necesitan independencia; pueden surgir de observaciones intercambiables, por ejemplo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X