7 votos

¿Cómo examino el sesgo en la regresión no lineal?

Tengo el modelo de regresión no lineal $$y_i= \beta_0 + \beta_1 x_{1i}+e^{ \beta_2 x_{2i}}+u_i, \quad i=1,2, \ldots ,n,$$ y se satisfacen los supuestos menos cuadrados (véase más abajo). Que $ \beta =( \beta_0 , \beta_1 , \beta_2 )$ .

Dado este modelo, quiero examinar el sesgo de la estimaciones de mínimos cuadrados no lineales de $ \beta $ . Esta estimación viene dada por la solución global del problema de minimización $$ \min_ { \beta_0 , \beta_1 , \beta_2 } \sum_i (y_i- \beta_0 - \beta_1 x_{1i}-e^{ \beta_2 x_{2i}})^2.$$ La solución puede denotarse por $ \hat { \beta }=( \hat { \beta }_0, \hat { \beta }_1, \hat { \beta }_2)$ .

(Cabe señalar que las condiciones de primer orden para el problema de la minimización son

\begin {Casos} \sum_i (y_i- \beta_0 - \beta_1 x_{1i}-e^{ \beta_2 x_{2i})&=0; \\ \sum_i (y_i- \beta_0 - \beta_1 x_{1i}-e^{ \beta_2 x_{2i})x_{1i}&=0; \\ \sum_i (y_i- \beta_0 - \beta_1 x_{1i}-e^{ \beta_2 x_{2i})e^{ \beta_2 x_{2i}}&=0; \end {Casos}

y añadir a esto que no creo que podamos encontrar una solución analítica a este sistema de ecuaciones. Por lo tanto, es posible que tengamos que usar algoritmos de computadora para resolver el sistema anterior).

Ahora, tengo dos preguntas con respecto a $ \hat { \beta }$ .

A. En primer lugar, ¿cómo examino el sesgo $E( \hat { \beta }- \beta )$ ? (La expectativa se toma por componentes.)

B. En segundo lugar, es el sesgo igual a cero para la intercepción y el coeficiente de $x_{1i}$ ? Es decir, ¿es verdad que $$E( \hat { \beta }- \beta )=(0,0,E( \hat { \beta }_2- \beta_2 ))?$$ Para la primera pregunta, A, estoy buscando un método de investigación; puede implicar el uso de, por ejemplo, MATLAB o Mathematica. Para la segunda pregunta, B, estoy buscando una prueba o un contraejemplo. (La pregunta B puede ser vista como una subpregunta a la A.)

Me interesa esto porque a menudo se dice que la regresión no lineal introduce un sesgo en las estadísticas. Las referencias de esta afirmación son varias, por ejemplo, el artículo de Wikipedia en inglés sobre regresión no lineal ; página 51 en Regresión no lineal 2005, por G. A. F. Seber, C. J. Wild; Bias in Nonlinear Regression, Cook et al, Biometrika (1986), 73, 3, págs. 615 a 23; Bias in Nonlinear Estimation, M. J. Box, Revista de la Real Sociedad de Estadística. Serie B (Metodológica) (1971), 33, 2, pp. 171-201; y la entrada del blog Algunas propiedades de los mínimos cuadrados no lineales por Dave Giles.

Supuestos menos cuadrados.

  1. Para todos $i$ el término de error $u_i$ tiene una media condicional de cero dado $x_{1i}$ y $x_{2i}$ es decir. $E(u_i|x_{1i},x_{2i})=0$ .
  2. $(y_i,x_{1i},x_{2i})$ , $i=1,2, \ldots ,n$ son los dibujos de identificación de la distribución conjunta.
  3. Los grandes valores atípicos son poco probables, lo que significa que para cada $i$ , $y_i$ , $x_{1i}$ y $x_{2i}$ tienen cuartos momentos finitos distintos de cero.
  4. No hay una multicolinealidad perfecta.

3voto

GeoMatt22 Puntos 1290

Si defines $$z \equiv {y}-e^{ \beta_2 x_2}= \beta_0 + \beta_1 x_1+u$$ entonces dado $ \beta_2 $ puedes estimar $ \beta_0 $ y $ \beta_1 $ a través de la OLS. Este truco es útil computacionalmente para convertir tu problema en un scalar optimización no lineal sobre $ \beta_2 $ .

Como la OLS es imparcial, cualquier sesgo en el no lineal parámetro será heredado por el lineal parámetros . Es decir, si $ \beta_2 $ es imparcial, entonces todos los parámetros serán imparciales. Pero si no, entonces los parámetros lineales deben también ser parcial. Así que en general la respuesta a tu pregunta B es no .

Para su pregunta A, los experimentos numéricos serían un comienzo razonable. (Aquí el régimen de interés sería donde el rango de $ \beta_2x_2 $ es "no demasiado pequeño", si no la no linealidad será "linealizada".)

Observe también que sus referencias dan algunas fórmulas aproximadas para estimar el sesgo.


Aclaración: la función de objetivo de optimización (error) es idéntica cuando se utiliza el enfoque particionado, es decir $$E \big [ \beta_ {0:2} \big ]= \tfrac {1}{2} \Big\ |z \big [ \beta_2\big ]- \hat {y}_ \mathrm {lin} \big [ \beta_ {0:1} \big ] \Big\ |^2$$ El enfoque "separable" funciona porque para el sub-problema lineal, la OLS da la global óptima (para una determinada $ \beta_2 $ ).

1voto

Para poder hablar de si $ \hat { \beta }$ está sesgada, necesitamos tener algún concepto de una verdadera $ \beta $ . Es decir, necesitamos especificar un proceso de generación de datos. Así que para hacer que este problema se pueda tratar, asumamos que

$y_i = \beta_0 + \beta_1 x_{i1} + e^{ \beta_2 x_{i2}} + u_i$

y

$u_i \sim N(0, \sigma ^2)$ .

Su estimador es asintóticamente imparcial porque tiene la misma como un problema de máxima probabilidad, y el EML es asintóticamente imparcial.

Aquí están las matemáticas: \begin {alinear} f(y_i | x_i; b, \sigma ^2) = \frac {1}{ \sqrt {2 \pi \sigma ^2}} e^{-(y_i - b_0 - b_1 x_{i1} - e^{b_2 x_{i2})^2 / 2 \sigma ^2} \\ \end {alinear} $ \log (LL(b, \sigma | y_1, \dots y_n, x_1, \dots x_n)) = - \frac {n}{2} \log ( \sigma ^2) - \sum_i (y_i - b_0 - b_1 x_{i1} - e^{b_2 x_{i2}})^2 / (2 \sigma ^2) $

Puede comprobar que la probabilidad de registro tiene las mismas condiciones de primer orden para $b_0$ , $b_1$ y $b_2$ como el problema de los mínimos cuadrados que has establecido, así que tiene la misma respuesta. (Resolver esto como un problema de EML también requiere estimar $ \sigma ^2$ pero la estimación de $ \sigma ^2$ no afecta a las estimaciones de $ \beta $ .)

Así que es asintóticamente imparcial, pero ¿qué pasa con las muestras finitas? No estoy seguro de cómo probar eso. Aquí hay una "prueba de Matlab" incompleta, donde los tres primeros componentes de los "params" corresponden a $ \beta $ y el último corresponde a $ \sigma ^2$ ::

b = [1, 1, 1]; sigma_squared = 1; n = 100; nIters = 10000; rng(10317); ll = @(y, x, b, n) sum((y - b(1) - b(2)*x(:, 1) - exp(b(3) * x(:, 2))).^2) / (2 * b(4)) + .5 * n* log(b(4)); params = zeros(niters, 4); options = optimoptions(@fminunc, 'Algorithm', 'quasi-newton') x = normrnd(0, 1, n(n_obs), 2); mean_ = b(1) + x(:, 1) * b(2) + exp(x(:, 2) * b(3)); for ii = 1:niters y = mean_ + normrnd(0, sigma_squared, n(n_obs), 1); params(ii, :) = fminunc(@(b) ll(y, x, b, n(n_obs)), [1, 1, 1, 1], options); end E_b_hat = mean(params); b_se = std(params) / (nIters - 1); bias = E_b_hat - b;

Tengo un sesgo casi nulo e insignificante por $ \hat { \beta }$ . Sin embargo, esto sólo "prueba" que $ \hat { \beta }$ es imparcial para un valor particular de $ \beta $ y la distribución de $u$ y $x$ . Este estimador podría no ser de muestra finita sin sesgo en general.

(Un consejo general que no se aplica aquí: Cuando es fácil probar el sesgo en los mínimos cuadrados no lineales, es a menudo a través de la invocación de la Desigualdad de Jensen. Ver esta referencia .)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X