La mayoría de los procedimientos de estimación implican encontrar parámetros que minimicen (o maximicen) alguna función objetivo. Por ejemplo, con Mínimos Cuadrados Ordinarios, minimizamos la suma de residuos al cuadrado. Con la Estimación de Máxima Verosimilitud, maximizamos la función de log-verosimilitud. La diferencia es trivial: la minimización puede convertirse en maximización utilizando el negativo de la función objetivo.
A veces este problema se puede resolver algebraicamente, produciendo una solución en forma cerrada. Con Mínimos Cuadrados Ordinarios, resuelves el sistema de condiciones de primer orden y obtienes la fórmula familiar (aunque todavía probablemente necesites una computadora para evaluar la respuesta). En otros casos, esto no es matemáticamente posible y necesitas buscar valores de parámetros utilizando una computadora. En este caso, la computadora y el algoritmo juegan un papel más importante. Un ejemplo es el método de Mínimos Cuadrados No Lineales. No obtienes una fórmula explícita; todo lo que obtienes es una receta que necesitas implementar en la computadora. La receta podría ser comenzar con una suposición inicial de cuáles podrían ser los parámetros y cómo podrían variar. Luego pruebas varias combinaciones de parámetros y ves cuál te da el valor más bajo/alto de la función objetivo. Este es el enfoque de fuerza bruta y lleva mucho tiempo. Por ejemplo, con 5 parámetros con 10 valores posibles cada uno, necesitas probar $10^5$ combinaciones, y eso solo te acerca al vecindario de la respuesta correcta si tienes suerte. Este enfoque se llama búsqueda en grilla.
O puedes comenzar con una suposición y refinar esa suposición en alguna dirección hasta que las mejoras en la función objetivo sean menores que algún valor. Estos suelen llamarse métodos de gradiente (aunque hay otros que no utilizan el gradiente para elegir en qué dirección ir, como algoritmos genéticos y recocido simulado). Algunos problemas como este garantizan que encuentres la respuesta correcta rápidamente (funciones objetivo cuadráticas). Otros no dan ninguna garantía. Puede que te preocupe que te hayas quedado atascado en un óptimo local, en lugar de global, por lo que pruebas una variedad de suposiciones iniciales. Puede que descubras que parámetros muy diferentes te dan el mismo valor de la función objetivo, por lo que no sabes cuál conjunto elegir.
Aquí tienes una forma agradable de intuitirlo. Supongamos que tenías un modelo de regresión exponencial simple donde el único regresor es el intercepto: \begin{equation} E[y]=\exp\{\alpha\} \end{equation>
La función objetivo es \begin{equation} Q_N(\alpha)=-\frac{1}{2N} \sum_i^N \left( y_i - \exp\{\alpha\} \right)^2 \end{equation>
Con este problema simple, ambos enfoques son factibles. La solución en forma cerrada que obtienes al derivar es $\alpha^* = \ln \bar y$. También puedes verificar que cualquier otra cosa te da un valor más alto de la función objetivo al sustituir $\ln (\bar y + k) $ en su lugar. Si tuvieras algunos regresores, la solución analítica sale por la ventana.
5 votos
Esta pregunta parece haber sido algo así como un imán para respuestas de baja calidad durante un tiempo; pensé que tal vez debería ser protegida por ahora.