Hay muchos ejemplos en los que hacer más "precisa" predicciones da un peor rendimiento (por ejemplo, método de Runge del fenómeno). Mi profesor supone que existe una base sólida para la elección de "simple" de las funciones más complejas en el caso general, y que tenía que ver con la teoría de la información.
¿Alguien sabe a qué se estaba refiriendo?
Como un ejemplo: considere la posibilidad de mínimos cuadrados. Obviamente podríamos encontrar un polinomio de grado muy alto que tiene cero error, pero preferimos una ecuación lineal con una mayor error. ¿Por qué debería ser?
(Estoy familiarizado con algunos conceptos básicos como la entropía, pero no mucho más que eso, de modo más simple de las explicaciones sería muy preferido. Aunque entiendo que si es complejo, es complejo.)