33 votos

¿Cómo podemos explicar la "mala reputación" de los polinomios de orden superior?

Todos lo habremos oído ya: cuando empezamos a aprender sobre los modelos estadísticos que sobreajustan los datos, el primer ejemplo que se nos da suele ser el de las "funciones polinómicas" (por ejemplo, véase la imagen aquí ):

Enter image description here

Estamos advertidos de que, aunque los polinomios de mayor grado pueden ajustarse bastante bien a los datos de entrenamiento, seguramente se sobreajustarán y generalizarán mal a los datos de prueba.

¿Por qué ocurre esto? ¿Existe una justificación matemática de por qué las funciones polinómicas (de mayor grado) sobreajustan los datos? La explicación más cercana que pude encontrar en línea fue algo llamado "El fenómeno de Runge" lo que sugiere que los polinomios de orden superior tienden a "oscilar" mucho - ¿explica esto por qué se sabe que las funciones polinómicas sobreajustan los datos?

Entiendo que hay todo un campo de "regularización" que trata de solucionar estos problemas de sobreajuste (por ejemplo, la penalización puede evitar que un modelo estadístico "abrace" demasiado los datos) - pero sólo usando la intuición matemática, ¿por qué se sabe que los polinomios sobreajustan los datos?

En general, las "funciones" (por ejemplo, la variable de respuesta que se intenta predecir mediante aprendizaje automático ) se pueden aproximar utilizando métodos más antiguos como Serie de Fourier , Serie Taylor y métodos más nuevos como redes neuronales . Creo que hay teoremas que garantizan que las series de Taylor, los polinomios y las redes neuronales pueden "aproximar arbitrariamente" cualquier función. ¿Quizás las redes neuronales puedan prometer menores errores para una complejidad más simple?

Pero, ¿hay razones matemáticas para que se diga que los polinomios de orden superior (por ejemplo, la regresión polinómica) tienen la mala costumbre de sobreajustarse, hasta el punto de que se han vuelto muy impopulares? ¿Se puede explicar únicamente por el fenómeno de Runge?

Referencia:

Gelman, A. y Imbens, G. (2019) Por qué no se deben utilizar polinomios de alto orden en los diseños de regresión discontinua . Revista de Estadísticas Económicas y Empresariales 37(3) , pp. 447-456. (La versión del documento de trabajo del NBER está disponible aquí )

4voto

El anillamiento es un artefacto de la utilización de puntos uniformemente espaciados, porque los polinomios de Lagrange para este espaciamiento no están estrechamente concentrados alrededor de los puntos a los que intentan ajustarse. Por ejemplo, para 11 puntos espaciados uniformemente en el intervalo [0,1], aquí está el polinomio de grado 10 que se utiliza para ajustar el valor en x=0,4 (es cero en todos los demás puntos de muestra):

enter image description here

Evidentemente, si se modifica el valor en x=0,4, la función ajustada cambiará de forma salvaje en los lugares no relacionados. Como muestra el paquete Chebfun (y otros trabajos de Trefethen), este problema desaparece cuando se utilizan puntos de muestreo bien elegidos sobre el intervalo, basados en las raíces de los polinomios de Chebyshev. En este caso, los polinomios de Lagrange (es decir, las funciones de base) se acercan naturalmente a los núcleos suaves. Con esta elección de puntos de ajuste/base de polinomios, el polinomio que intenta ajustarse a x=0,4 se maximiza de hecho en esta ubicación.

enter image description here

La contrapartida es que hay que fijar de antemano el intervalo de adaptación deseado. Como podemos ver en el ejemplo, la propiedad de "concentración" disminuye considerablemente fuera de [0,1].

Así que el exceso de ajuste no tiene que ver con los polinomios: el problema es que en los puntos uniformemente espaciados el mapeo entre la distancia de la curva sobre el intervalo y la distancia de la muestra en los puntos muestreados es casi degenerado. Aunque intuitivamente pensamos que los polinomios de alto grado son interpolantes suaves, esto no es automáticamente cierto en el caso de los polinomios de alto orden y usted ha olvidado informar a su procedimiento de ajuste sobre cómo es una medida normal de la función-distancia. Esto se puede arreglar completamente cambiando de base, y una vez hecho esto se puede hacer una interpolación numérica muy fiable con polinomios de más de 100 grados. Por supuesto, esta solución es más adecuada para trabajar numéricamente con cantidades continuas en principio, que para datos discretos en los que no podemos elegir nuestros puntos de muestra.

3voto

Leonhard Puntos 375

¿Existe alguna justificación matemática de por qué las funciones polinómicas (de mayor grado) se ajustan en exceso a los datos?

Como han mencionado otros, en particular stachyra y fblundun, se trata de la complejidad de la clase de hipótesis en relación con la cantidad de datos que se tiene. Un modelo muy complejo siempre encontrará una manera de explicar una pequeña cantidad de datos, independientemente de si esa explicación se generaliza correctamente. Un modelo simple no podrá ajustarse a los datos de entrenamiento a menos que realmente explique la relación subyacente.

Imagínese que mi distribución de datos es la siguiente: para cada $x$ , elijo $y$ uniformemente al azar de $\{0,1\}$ . Ningún modelo del mundo será capaz de predecir el siguiente punto de datos. Es totalmente aleatorio.

Pero supongamos que usted planea dibujar $10$ puntos de datos de entrenamiento y ajustar un grado $10$ polinomio. Ya te puedo adelantar lo que ocurrirá: podrás ajustar los datos perfectamente. En otras palabras, su enfoque no puede decir si va a generalizar bien o no. Siempre tiene un error de entrenamiento nulo aunque la siguiente predicción vaya a ser muy mala.

Mientras que con un grado $3$ polinomio, se notará inmediatamente un mal ajuste y se concluirá que no se generalizará. Un modelo simple puede detectar si se ajusta o no a los datos. Uno complejo siempre se ajustará a los datos, independientemente de cómo se haya generado.


Esta intuición se formaliza mediante Dimensión VC una medida de la complejidad de las clases de hipótesis para la clasificación binaria (pero también hay versiones para la regresión, psuedo-dimensión). La teoría promete que para una clase de modelo simple, si extraemos relativamente pocos puntos de datos, el ajuste a los datos de entrenamiento es representativo del ajuste al modelo generativo real. Mientras que para una clase de modelo más compleja, puede ajustarse a los datos de entrenamiento significativamente mejor que a los datos de prueba.

2voto

Oak Puntos 1366

Utilizar más términos significa más grados de libertad, y por tanto más sobreajuste, pero la verdadera pregunta es: ¿por qué los términos de alto orden como $x^5$ ¿tan malo?

Si tienes suficientes datos para estimar un parámetro $a$ y ningún conocimiento especial sobre el dominio, un profesional siempre empezaría con $ax$ en lugar de $a x^5$ en su exploración del modelo. ¿Es puramente empírico, o hay alguna forma matemática de justificar esta elección?

Cuando se ajustan datos discretos se puede demostrar que los términos de bajo orden son preferibles a los de alto orden utilizando el análisis del peor caso. https://arxiv.org/pdf/math/0410076.pdf

Para vectores binarios aleatorios de la forma $\langle x_0,x_1,\ldots,x_n\rangle$ se puede demostrar que el mejor modelo que se basa en $k$ características de la forma $\{x_i\}$ (de primer orden) dará como resultado un mejor ajuste esperado cuando la verdadera distribución generadora se elija de forma adversa, después de que se revele su elección de características, que el mejor modelo que se base en $k$ características de la forma $\{x_i x_j\}$ (segundo orden). No conozco resultados similares para valores reales $x$ . El gran obstáculo es que para los valores reales $x$ es que ya no hay acuerdo sobre qué medida utilizar en este espacio. Diferentes elecciones de medidas conducen a diferentes conclusiones.

Tal vez haya algún principio de universalidad que sugiera que los términos de bajo orden son preferibles para un caso típico, que es más relevante para el mundo real, en lugar del "caso adverso" que es lo que se analiza en el documento.

2voto

Aksakal Puntos 11351

La entrada del blog que estáis comentando aquí y el gráfico tienen poco que ver con las regresiones polinómicas en sí. El autor simplemente utilizó los polinomios para demostrar la idea del sobreajuste: es decir, el ajuste al ruido. Cuando no se dejan grados de libertad, el ajuste se vuelve muy rígido, es decir, muy sensible tanto a los errores en y como a la elección de x en la muestra. Se podría utilizar cualquier otra función de base para llegar al mismo resultado, no es necesario que sean polinomios.

Así, si tiene 10 observaciones y utiliza un polinomio de 9º orden, entonces no deja ningún grado de libertad. Este polinomio tendrá 10 coeficientes para sus 10 puntos de muestra. Por lo tanto, su curva ajustada tendrá que pasar por cada punto de su muestra. Esto significa que cada error de medición en cada Y estará en los coeficientes de su modelo. Si empaquetas todos los errores en tus coeficientes, entonces inevitablemente el ajuste fuera de la muestra será horrible, o como la gente de ML dice "el modelo no se generalizará".

De nuevo, esto ocurrirá con cualquier modelo, no sólo con la regresión polinómica. Esto no significa que los polinomios de alto grado no tengan problemas. Los tienen, y algunos de ellos son reales y otros se deben a la falta de conocimiento de la gente que los usa mal, pero este ejemplo no es una demostración de estos problemas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X