65 votos

¿Los residuos son "previstos menos reales" o "reales menos previstos"?

He visto que los "residuos" se definen de diversas maneras, como "valores predichos menos reales" o "valores reales menos predichos". A título ilustrativo, para mostrar que ambas fórmulas se utilizan ampliamente, compare las siguientes búsquedas en la web:

En la práctica, casi nunca supone una diferencia, ya que el signo de los residuos inviduales no suele importar (por ejemplo, si se elevan al cuadrado o se toman los valores absolutos). Sin embargo, mi pregunta es: ¿se considera "estándar" una de estas dos versiones (la de la predicción en primer lugar frente a la real)? Me gusta ser coherente en mi uso, así que si hay una norma convencional bien establecida, prefiero seguirla. Sin embargo, si no hay una norma, estoy dispuesto a aceptarla como respuesta, si se puede demostrar de forma convincente que no existe una convención estándar.

58voto

Aksakal Puntos 11351

Los residuos son siempre reales menos los previstos. Los modelos son: $$y=f(x;\beta)+\varepsilon$$ Por lo tanto, los residuos $\hat\varepsilon$ que son estimaciones de errores $\varepsilon$ : $$\hat\varepsilon=y-\hat y\\\hat y=f(x;\hat\beta)$$

Estoy de acuerdo con @whuber en que el signo realmente no importa matemáticamente. Sin embargo, es bueno tener una convención. Y la convención actual es como en mi respuesta.

Ya que OP desafió mi autoridad en este tema, añado algunas referencias:

26voto

jldugger Puntos 7490

Acabo de encontrarme con una razón convincente para que una respuesta sea el correcta.

La regresión (y la mayoría de los modelos estadísticos de cualquier tipo) se refieren a cómo las distribuciones condicionales de una respuesta dependen de las variables explicativas. Un elemento importante de la caracterización de esas distribuciones es una medida que suele llamarse "asimetría" (aunque se han ofrecido varias y diferentes fórmulas): se refiere a la forma más básica en que la forma de la distribución se aparta de la simetría. He aquí un ejemplo de datos bivariados (una respuesta $y$ y una única variable explicativa $x$ ) con respuestas condicionales positivamente sesgadas:

! Figure 1: a scatterplot with least squares line.

La curva azul es el ajuste por mínimos cuadrados ordinarios. Representa los valores ajustados.

Cuando calculamos la diferencia entre una respuesta $y$ y su valor ajustado $\hat y$ , desplazamos la ubicación de la distribución condicional, pero no cambian su forma. En particular, su asimetría no se verá alterada.

Figure 2: Residuals vs. predicted values.

Se trata de un gráfico de diagnóstico estándar que muestra cómo varían las distribuciones condicionales desplazadas con los valores predichos. Geométricamente, es casi lo mismo que "hasta" el gráfico de dispersión anterior.

Si, en cambio, calculamos la diferencia en el otro orden, $\hat y - y,$ esto cambiará y luego invertir la forma de la distribución condicional. Su asimetría será el negativo de la distribución condicional original.

Figure 3: the previous plot with residuals negated

Aquí se muestran las mismas cantidades que en la figura anterior, pero los residuos se han calculado restando los datos de sus ajustes, lo que, por supuesto, es lo mismo que negar los residuos anteriores.

Aunque las dos figuras anteriores son matemáticamente equivalentes en todos los aspectos -una se convierte en la otra simplemente volteando los puntos a través del horizonte azul-, una de ellas tiene una relación visual mucho más directa con la trama original.

Por consiguiente, si nuestro objetivo es relacionar las características de la distribución de los residuos con las características de los datos originales -y casi siempre es así-, entonces es mejor simplemente desplazar las respuestas que desplazarlas e invertirlas.

La respuesta correcta es clara: calcular los residuos como $y - \hat y.$

11voto

icelava Puntos 548

Green y Tashman (2008, Previsión ) informan de una pequeña encuesta sobre la cuestión análoga para los errores de previsión. Resumiré los argumentos a favor de cualquiera de las dos convenciones, tal y como los presentan:

Argumentos para "real-predicado"

  1. La convención estadística es $y=\hat{y}+\epsilon$ .

  2. Al menos uno de los encuestados de sismología escribió que esta es también la convención para modelar el tiempo de viaje de las ondas sísmicas. "Cuando la onda sísmica real llega antes del tiempo predicho por el modelo, tenemos un residuo de tiempo de viaje negativo (error)". ( sic )

  3. Esta convención tiene sentido si interpretamos $\hat{y}$ como un presupuesto, un plan o un objetivo. En este caso, un error positivo significa que se ha superado el presupuesto/plan/objetivo.

  4. Esta convención hace que las fórmulas de alisamiento exponencial algo más intuitivo. Podemos utilizar un $+$ signo. Con la otra convención, tendríamos que utilizar un $-$ signo.

Argumentos para "predicción-actualidad"

  1. Si $y=\hat{y}-\epsilon$ Entonces, un error positivo indica que la previsión era demasiado alta. Esto es más intuitivo que lo contrario.

    En este sentido, si un positivo El sesgo se define como positivo errores esperados, significaría que las previsiones son por término medio demasiado altas con esta convención.

    Y este es prácticamente el único argumento que se da para esta convención. Por otra parte, teniendo en cuenta los malentendidos que puede provocar la otra convención (errores positivos = previsión demasiado baja), es un argumento de peso.

Al final, yo diría que todo se reduce a quién tiene que comunicar sus residuos. Y dado que ciertamente hay dos lados en esta discusión, tiene sentido señalar explícitamente qué convención sigues.

4voto

Gregg H Puntos 251

La respuesta de @Aksakal es completamente correcta, pero sólo añadiré un elemento adicional que me ayuda a mí (y a mis alumnos).

El lema: la estadística es "perfecta". Es decir, siempre puedo ofrecer la predicción perfecta (sé que algunos están levantando las cejas ahora mismo... así que escúchenme).

Voy a predecir mis valores observados $y_i$ . Con alguna forma de modelo, generaré un valor predicho para cada valor observado, lo llamaré $\hat{y}_i$ . El único problema, es que normalmente (siempre) $$y_i \ne \hat{y}_i$$ Así, añadiremos una nueva variable $\epsilon_i$ para que la igualdad se mantenga... pero me parece que la mejor opción es sumarlo a nuestro valor "predicho" ("inventado") en lugar de sumarlo al valor real (ya que sumar o restar de un valor real puede no ser físicamente posible... ver comentarios más abajo): $$y_i = \hat{y}_i + \epsilon_i$$ Ahora, tenemos una predicción "perfecta"... nuestro valor "final" coincide con el valor observado.

Obviamente, esto pasa por alto una enorme cantidad de la teoría estadística que subyace a lo que sucede... pero subraya la idea de que el valor observado es la suma de dos partes distintas (una parte sistemática y una parte aleatoria). Si lo recuerdas de esta forma, siempre tendrás ese residuo, $\epsilon_i$ es lo observado menos lo previsto.

4voto

jgradim Puntos 1143

Una terminología diferente sugiere diferentes convenciones. El término "residual" implica que es lo que queda después de tener en cuenta todas las variables explicativas, es decir, real-predicho. El término "error de predicción" implica que es lo que se desvía la predicción de lo real, es decir, predicción-actual.

La concepción que uno tiene del modelado también influye en qué convención es más natural. Supongamos que tenemos un marco de datos con una o varias columnas de características $X = x_1,x_2...$ columna de respuesta $y$ y la columna de predicción $\hat y$ .

Una concepción es que $y$ es el valor "real", y $\hat y$ es simplemente una versión transformada de $X$ . En esta concepción, $y$ y $\hat y$ son ambas variables aleatorias ( $\hat y$ siendo una derivada). Aunque $y$ es el que realmente nos interesa, $\hat y$ es la que podemos observar, por lo que $\hat y$ se utiliza como sustituto de $y$ . El "error" es la cantidad de $\hat y$ se desvía de este valor "verdadero" $y$ . Esto sugiere definir el error siguiendo la dirección de esta desviación, es decir $e = \hat y -y$ .

Sin embargo, hay otra concepción que piensa en $\hat y$ como el valor "real". Es decir, y depende de $X$ a través de algún proceso determinista; un estado particular de $X$ da lugar a un valor determinista particular. Este valor es entonces perturbado por algún proceso aleatorio. Así pues, tenemos $x \rightarrow f(X)\rightarrow f(X)+error()$ . En esta concepción, $\hat y$ es el valor "real" de y. Por ejemplo, supongamos que intentas calcular el valor de g, la aceleración debida a la gravedad. Sueltas un montón de objetos, mides la distancia a la que han caído ( $X$ ) y el tiempo que tardaron en caer ( $y$ ). A continuación, se analizan los datos con el modelo y = $\sqrt{\frac{2x}{g}}$ . Encuentras que no hay ningún valor de g que haga que esta ecuación funcione exactamente. Así que entonces modelas esto como

$\hat y = \sqrt{\frac{2x}{g}}$
$y = \hat y +error$ .

Es decir, se toma la variable y y se considera que hay un valor "real" $\hat y$ que está siendo generado por las leyes físicas, y luego algún otro valor $y$ es decir $\hat y$ modificado por algo independiente de $X$ como los errores de medición o las ráfagas de viento o lo que sea.

En esta concepción, estás tomando y = $\sqrt{\frac{2x}{g}}$ para ser lo que la realidad "debería" estar haciendo, y si obtienes respuestas que no concuerdan con eso, bueno, la realidad tiene la respuesta equivocada. Ahora, por supuesto, esto puede parecer bastante tonto y arrogante cuando se pone de esta manera, pero hay buenas razones para proceder a esta concepción, y puede ser útil pensar de esta manera. Y, en última instancia, es sólo un modelo; los estadísticos no creen necesariamente que el mundo funcione así en realidad (aunque probablemente haya algunos que lo hagan). Y dada la ecuación $y = \hat y +error$ se deduce que los errores son los reales menos los previstos.

Además, ten en cuenta que si no te gusta el aspecto de "la realidad se equivocó" de la segunda concepción, puedes verlo como "Hemos identificado algún proceso f a través del cual y depende de $X$ pero no estamos obteniendo exactamente las respuestas correctas, así que debe haber algún otro proceso g que también esté influyendo en y". En esta variación,

$\hat y = f(X)$
$y = \hat y+g(?)$
$g = y-\hat y$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X