6 votos

Descarga, residuos y equipos de limpieza

Tengo una pregunta acerca de la forma correcta para describir la variación de las funciones cuando se trata de lidiar con heterocedasticidad. Como yo lo entiendo el error estadístico de un modelo que representa la salida entre una muestra y el verdadero valor de la función. En la práctica generalmente no se conoce el verdadero valor de la función. En contraste, los residuos son la diferencia entre una muestra y la estimación de la función de valor, lo que sí sabemos. Ahora, supongamos que tengo un modelo con heterocedasticidad y quiero el modelo como

$$\varepsilon_i \sim N(0, \sigma^2 \times X_i).$$

Sería correcto decir que la varianza de los errores estadísticos se modela como una función de $X$? O, sería mejor decir que la varianza de los residuos fue modelada como una función de $X$?

66voto

jldugger Puntos 7490

Conclusiones

No tiene sentido el modelo de la varianza de los residuos de forma explícita, porque la varianza depende del procedimiento de ajuste, que no forma parte del modelo. Debemos modelar la varianza de los errores y luego, para nuestro elegido procedimiento de ajuste, podemos determinar la distribución de los residuos.

Supuestos

La pregunta es cómo interpretar "$\varepsilon_i$," pero desafortunadamente no definir $X$, $X_i$, o $\sigma^2$. Sin embargo, podemos hacer algunas conjeturas que pueden ser útiles:

  • Evidentemente cada una de las $\varepsilon_i$ es una variable aleatoria con una numérico (no vectorial) de valor, porque se refiere a un "error" o un residual.

  • Por lo tanto, "$\sigma^2 \times X_i$ " debe ser un número. Tomando $\sigma^2$ a ser un parámetro de escala, llegamos a la conclusión de que el $X_i$ son números.

  • El $X_i$ podría ser variables aleatorias, pero si es así, este es un complicado modelo. Por simplicidad (y porque esto no afecta a los conceptos o de la naturaleza de la posterior análisis), vamos a llevarlos a ser valores fijos (uno para cada una de las $i$). Así que, vamos a la $X_i$ ser independiente o valores de las covariables, los tratan como a conocidos y medir sin error apreciable.

Reformulación de la pregunta

Esta es una situación de regresión general de configuración. Para ser claros y específicos, dejar que el índice de $i$ designar observaciones; para cada una de las $i$, vamos a $Z_i$ ser un vector de valores independientes; deje $g$ ser un (conocido) con un valor real de la función de con $X_i = g(Z_i)$; deje $\theta$ ser un vector de (desconocido) de los parámetros del modelo a ser estimado; deje $Y_i$ ser el dependiente de valores; deje $\sigma$ ser otro (escalares) parámetro, conocido o desconocido; y deje $f$ el (conocido) de la función mencionada en la pregunta. En estos términos supongo que el modelo en cuestión es de la forma

$$Y_i = f(Z_i, \theta) + \varepsilon_i$$

y los errores de $\varepsilon_i$ son asumidos para ser independiente, distribuido normalmente con cero significa, y tienen varianza

$$Var(\varepsilon_i)=\sigma^2 g(Z_i).$$

Deje $\hat{\theta}$ ser de cualquiera de las estimaciones de los parámetros. Específicamente, $\hat{\theta}$ es algo de la función $t$ de todos los datos:

$$\hat{\theta} = t(\mathbf{Z}, \mathbf{Y}) = t(\mathbf{Z}, f(\mathbf{Z}, \theta)+\mathbf{\varepsilon})$$

($\mathbf{Z}$ es el vector de $Z_i$, $\mathbf{Y}$ es el vector de $Y_i$, e $\varepsilon$ es el vector de $\varepsilon_i$). $t$ es el estimador de frecuencia de los mínimos cuadrados o de máxima verosimilitud.

El equipado por tanto, el modelo es

$$\hat{Y} = f(Z, \hat{\theta})$$

y los residuos, por definición, son

$$e_i = \hat{Y_i} - f(Z_i, \hat{\theta}).$$

Ahora la pregunta, al menos como yo la he interpretado, se pueden formular:

"Sería correcto decir que el $Var(\varepsilon)$ debe ser modelado como una función de la $X$ o sería mejor decir que $Var(e)$ debe ser modelada como una función de la $X$?"

Análisis

En este punto es claro que el $\varepsilon_i$ tienen nada que ver con el procedimiento de ajuste o de las estimaciones de los parámetros de $\hat{\theta}$. Recordando que $\hat{\theta}$ es determinado por el procedimiento de estimación $t$ y $t$ es determinista (es una función específica de sus argumentos), se observa que el $e_i$ son al azar, sólo en la medida de lo $t$ depende de los errores de $\varepsilon_i$. Por lo tanto, sus variaciones, $Var(e_i)$, dependen (potencialmente en una forma complicada) en $t$ sí. Tratando de modelo de $Var(e)$ inextricablemente enlace del modelo subyacente (una descripción aproximada de la realidad) con la estimación de los parámetros de procedimiento, que tiene poco sentido y que sólo podía ser contraproducente.

32voto

John Richardson Puntos 1197

Un modelo generativo para heteroskedastic de regresión sería decir que las respuestas se elaboró a partir de una distribución normal, donde la media y la varianza son funciones de las variables explicativas, es decir,

$y_i \sim N(f(x_i;\beta_\mu), g(x_i;\beta_\sigma))$

donde $\beta_\mu$ $\beta_\sigma$ son los parámetros de los dos modelos de componentes, y son generalmente de forma conjunta optimizado por minimizar el negativo de la log-verosimilitud. Las funciones de $f(\cdot)$ $g(\cdot)$ estimación de la media condicional y condicional de la varianza de la distribución de destino; no hay ninguna necesidad real para hablar de "residuos" o "errores estadísticos".

Yo diría que sería mejor afirmar que la varianza condicional de la variable de respuesta es modelado como una función de $X$".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X