"Predicción" y "estimación" a veces se utilizan indistintamente en la escritura no técnica y parecen funcionar de manera similar, pero hay una distinción clara entre ellos en el modelo estándar de un problema estadístico. Un estimador utiliza datos para intentar adivinar un parámetro mientras que un predictor utiliza los datos para intentar adivinar algún valor aleatorio que no es parte del conjunto de datos. Para aquellos que no están familiarizados con lo que significan "parámetro" y "valor aleatorio" en estadística, lo siguiente proporciona una explicación detallada.
En este modelo estándar, se asume que los datos constituyen una observación (posiblemente multivariada) $\mathbf{x}$ de una variable aleatoria $X$ cuya distribución se conoce solo que se encuentra dentro de un conjunto definido de posibles distribuciones, los "estados de la naturaleza". Un estimador $t$ es un procedimiento matemático que asigna a cada posible valor de $\mathbf{x}$ alguna propiedad $t(\mathbf{x})$ de un estado de la naturaleza $\theta$, como su media $\mu(\theta)$. Así que una estimación es una conjetura sobre el verdadero estado de la naturaleza. Podemos determinar qué tan buena es una estimación comparando $t(\mathbf{x})$ con $\mu(\theta)$.
Un predictor $p(\mathbf{x})$ se refiere a la observación independiente de otra variable aleatoria $Z$ cuya distribución está relacionada con el verdadero estado de la naturaleza. Una predicción es una conjetura sobre otro valor aleatorio. Podemos determinar qué tan buena es una predicción particular solo comparando $p(\mathbf{x})$ con el valor realizado por $Z$. Esperamos que, en promedio, el acuerdo sea bueno (en el sentido de promediar sobre todos los posibles resultados $\mathbf{x}$ y simultáneamente sobre todos los posibles valores de $Z$).
La regresión lineal ordinaria proporciona el ejemplo estándar. Los datos consisten en pares $(x_i, y_i)$ que asocian los valores $y_i$ de la variable dependiente a los valores $x_i$ de la variable independiente. El estado de la naturaleza está especificado por tres parámetros $\alpha$, $\beta$ y $\sigma: dice que cada $y_i$ es como una extracción independiente de una distribución normal con media $\alpha + \beta x_i$ y desviación estándar $\sigma$. $\alpha$, $\beta$ y $\sigma$ son parámetros (números) que se cree que son fijos e invariables. El interés se centra en $\alpha$ (la intersección) y $\beta$ (la pendiente). La estimación de OLS, escrita $(\hat{\alpha}, \hat{\beta})$, es buena en el sentido de que $\hat{\alpha}$ tiende a estar cerca de $\alpha$ y $\hat{\beta}$ tiende a estar cerca de $\beta$, sin importar cuáles sean los valores verdaderos (pero desconocidos) de $\alpha$ y $\beta.
La predicción de OLS consiste en observar un nuevo valor $Z = Y(x)$ de la variable dependiente asociado con algún valor $x$ de la variable independiente. $x$ puede o no estar entre los $x_i$ en el conjunto de datos; eso es inmaterial. Una predicción intuitivamente buena es que este nuevo valor es probablemente cercano a $\hat{\alpha} + \hat{\beta}x$. Las predicciones mejores indican qué tan cercano podría ser el nuevo valor (se llaman intervalos de predicción). Consideran el hecho de que $\hat{\alpha}$ y $\hat{\beta}$ son inciertos (porque dependen matemáticamente de los valores aleatorios $(y_i)$), que $\sigma$ no se conoce con certeza (y por lo tanto debe ser estimado), así como la suposición de que $Y(x)$ tiene una distribución normal con desviación estándar $\sigma$ y media $\alpha + \beta x$ (¡nota la ausencia de sombreros!).
Destaca especialmente que esta predicción tiene dos fuentes separadas de incertidumbre: la incertidumbre en los datos $(x_i, y_i)$ lleva a la incertidumbre en la pendiente estimada, la ordenada al origen y la desviación estándar residual ($\sigma$); además, hay incertidumbre en qué valor de $Y(x)$ ocurrirá. Esta incertidumbre adicional--porque $Y(x)$ es aleatorio--caracteriza las predicciones. Una predicción puede parecerse a una estimación (después de todo, $\hat{\alpha} + \hat{\beta}x$ estima $\alpha+\beta x :-) e incluso puede tener la misma fórmula matemática ($p(\mathbf{x})$ a veces puede ser la misma que $t(\mathbf{x})$), pero vendrá con una mayor cantidad de incertidumbre que la estimación.
Aquí, entonces, en el ejemplo de OLS, vemos la distinción claramente: una estimación conjetura los parámetros (que son números fijos pero desconocidos), mientras que una predicción conjetura el valor de una cantidad aleatoria. La fuente de confusión potencial es que la predicción generalmente se basa en los parámetros estimados y podría incluso tener la misma fórmula que un estimador.
En la práctica, puedes distinguir estimadores de predictores de dos maneras:
-
propósito: un estimador busca conocer una propiedad del verdadero estado de naturaleza, mientras que una predicción busca adivinar el resultado de una variable aleatoria; y
-
incertidumbre: un predictor generalmente tiene una mayor incertidumbre que un estimador relacionado, debido a la incertidumbre adicional en el resultado de esa variable aleatoria. Los predictores bien documentados y descritos, por lo tanto, suelen venir con bandas de incertidumbre - intervalos de predicción - que son más anchos que las bandas de incertidumbre de los estimadores, conocidos como intervalos de confianza. Una característica característica de los intervalos de predicción es que pueden (hipotéticamente) reducirse a medida que crece el conjunto de datos, pero no se reducirán a un ancho de cero - la incertidumbre en el resultado aleatorio es "irreducible" - mientras que los anchos de los intervalos de confianza tenderán a reducirse a cero, correspondiendo a nuestra intuición de que la precisión de una estimación puede volverse arbitrariamente buena con cantidades suficientes de datos.
Al aplicar esto para evaluar posibles pérdidas de inversión potenciales, primero considera el propósito: ¿quieres saber cuánto podrías perder realmente en esta inversión (o esta cesta de inversiones en particular) durante un período dado, o realmente solo estás adivinando cuál es la pérdida esperada (sobre un gran universo de inversiones, ¿quizás)? Lo primero es una predicción, lo segundo es una estimación. Luego considera la incertidumbre. ¿Cómo cambiaría tu respuesta si tuvieras recursos casi infinitos para recopilar datos y realizar análisis? Si se volviera muy precisa, probablemente estás estimando el rendimiento esperado de la inversión, mientras que si sigues altamente inseguro sobre la respuesta, estás haciendo una predicción.
Por lo tanto, si aún no estás seguro de qué animal estás tratando, pregúntale esto a tu estimador/predictor: ¿Qué tan probable es que esté equivocado y por qué? Mediante ambos criterios (1) y (2) sabrás lo que tienes.
4 votos
Estrechamente relacionada está una discusión sobre la diferencia entre intervalos de confianza e intervalos de predicción en stats.stackexchange.com/questions/16493.