5 votos

Tratando de entender el estimador insesgado

Después de leer esta entrada Sigo sin entender muy bien qué es un estimador. Supongamos que las muestras $D_i={(x_1,y_1),...(x_n,y_n)}$ se extraen aleatoriamente de la función $$f(x)=sin(2\pi x),$$ así que mi objetivo final es llegar a una función estimada $h(x)$ que debería aproximarse a $f$ lo más cerca posible, ¿verdad? Como no sé cuál es el verdadero $f$ por lo que podría elegir diferentes modelos para hacer la aproximación, aquí considero el modelo de regresión lineal, que es $$h(x)=\beta^Tx,$$ luego intento estimar los parámetros del modelo $\beta$ mediante OLS, y finalmente dada la muestra de entrenamiento $D_i$ Tengo las estimaciones $\hat\beta_{|D_i}$ y absolutamente diferente $\hat\beta$ para diferentes conjuntos de entrenamiento $D_i$ .

Este es mi problema,

  1. ¿Cuál es el estimador aquí? Según el post que he leído, creo que el proceso de elección del modelo de regresión lineal y estimación $\hat\beta$ a través de OLS son componentes del estimador, ¿verdad?

  2. ¿Cómo comprobar si el estimador está sesgado o no? Dado que he elegido el modelo de regresión lineal $h(x)$ y ahora tenemos las estimaciones $\hat\beta$ Creo que para comprobar si el estimador está sesgado o no, hay que averiguar $$B(\hat\beta)=\beta_{true}-E[\hat\beta],$$ ¿verdad? Ahora esta es la cosa me confunde mal, ya que no tenemos este $\beta_{true}$ porque el verdadero $f$ es en realidad $sin(\theta x)$ con $\theta=2\pi$ sólo tenemos $\theta_{true}$ no hay tal $\beta_{true}$ ¿verdad?

Espero que puedan ayudarme a hacer las cosas bien.

ACTUALIZACIÓN

Para responder al comentario de @whuber, mi pregunta tiene su origen en esta nota de lectura (a partir de la página 11)

1. ¿cómo se "extraen al azar" valores de una función?

Digamos que la función objetivo $f(x)=sin(2\pi x)$ se define en $x\in [-1,1]$ podría aleatoriamente (mediante una distribución uniforme sobre $[-1,1]$ ) dibujar $N$ puntos $\{x_1,...,x_N\}$ donde $N$ es el tamaño de la muestra, después podría calcular el valor de salida $y_i=f(x_i)$ sin ruido añadido. Ahora la muestra es $\{(x_1,y_1),...,(x_N,y_N)\}$ .

2. son uno (o ambos) de los $xi$ o $yi$ ¿Cuál es el comportamiento estadístico esperado de los errores de medición?

Aquí sólo mido el error entrenamiento/prueba del valor de salida $y_i$ . Quiero decir, con diferentes muestras de formación, tengo diferentes $\hat\beta$ entonces para un punto fijo $x_0$ el resultado previsto $\hat y_0=h(x_0)=\beta^Tx_0$ será diferente, pero el valor verdadero es $y_0=f(x_0)$ .

3. ¿por qué eliges un estimador lineal x para aproximar una función sen(2x) que es a fortiori fuertemente no lineal?

Como lo que se hace en la nota de clase, lo que tengo es sólo la muestra, que parece no lineal, tal vez no es prudente elegir un estimador lineal, y tal vez debería elegir esta $$h(x)=\beta_0+\beta_1x+\beta_2x^2$$ un estimador polinómico, pero aún está lejos del objetivo $sin(2\pi x)$ .

2voto

Nick Stauner Puntos 8220

Yo tampoco estoy 100% seguro de esto, ya que el post al que enlazas menciona un montón de sutilezas que aún no he considerado o estudiado mucho... pero aquí va un intento de respuesta a pesar de todo.

  1. Como tú lo has dicho, $h(x)$ es tu estimador, porque lo estás usando para aproximar $f$ . "El proceso de elección del modelo de regresión lineal" es el proceso de elección de la función estimadora, y su utilización para estimar $\hat\beta$ es precisamente eso: utilizar el estimador para obtener una estimación. Es decir, no son componentes del propio estimador; son el proceso del que procede el estimador y el proceso al que sirve, respectivamente.

  2. La forma limitada de probar el sesgo del estimador con la que estoy familiarizado de forma amateur es la prueba de simulación. En una circunstancia tan especial como ésta, podemos saber realmente $\hat\beta_{true}$ (probablemente debería en muchos casos de este tipo). Además, al simular los datos según parámetros predefinidos, podemos comprobar cómo afectan los distintos valores a los errores de nuestros estimadores. Según tengo entendido, estos errores sistemáticos son los que más preocupan en las consideraciones sobre el sesgo de los estimadores.

    Por ejemplo, normalmente se desea un estimador cuya precisión dependa mínimamente del tamaño de la muestra o, al menos, que no pierda precisión a medida que aumenta el tamaño de la muestra. Creo que esto es a veces un problema en las pruebas de significación, en el sentido de que algunas pruebas rechazan la nula con demasiada frecuencia cuando la nula es realmente cierta y el tamaño de la muestra es muy grande (por ejemplo, la prueba de Shapiro-Wilk). Otro ejemplo de sesgo del estimador (creo... otro lugar en el que podría estar equivocado) podría ser su típica prueba paramétrica cuando se utiliza en condiciones que violan sus supuestos. Las distribuciones no normales pueden sesgar las pruebas paramétricas que asumen datos distribuidos normalmente, mientras que las pruebas no paramétricas suelen ser estimadores relativamente insesgados.

    A veces, la polarización es más compleja e incluso interactiva. Por ejemplo, hace poco leí que sustituyendo las correlaciones policóricas por las de Pearson $r$ las correlaciones en una matriz sobre la que se va a realizar un análisis factorial confirmatorio pueden inflar (sesgar) los errores estándar de las estimaciones de los parámetros y $\chi^2$ bondad de ajuste cuando se utiliza la estimación de máxima verosimilitud (Babakus, 1985). La elección del estimador empieza a ser realmente peliaguda en el modelado de factores latentes...

    En cualquier caso, los problemas de este tipo se descubren a menudo mediante pruebas de simulación, en las que se designan y alteran sistemáticamente los parámetros reales, se generan datos aleatorios basados en estos ajustes y se comprueba que las estimaciones se desvían de los valores reales en distintos grados en función de los parámetros de las distribuciones simuladas. El grado de esa dependencia de los parámetros de la distribución es la sensibilidad del estimador a esos parámetros; si la sensibilidad no es despreciable, el estimador está sesgado cuando los parámetros a los que es sensible entran en ciertos rangos. A menudo no son los parámetros que se utilizan para estimar. La regresión múltiple MCO es sensible a la multicolinealidad de los regresores, por ejemplo, mientras que la regresión de cresta puede corregir un poco el sesgo cuando los regresores están muy relacionados (colineales).

1voto

patfla Puntos 1

Al mirar esas notas de clase, el tamaño de la muestra es de sólo dos - por lo que difícilmente se puede hacer mejor sin saber nada de f que simplemente promediando los dos valores.

Las nociones de "sesgo" y "varianza" sólo pueden definirse en relación con algún tipo de estructura del modelo. Esto queda claramente encapsulado por la $ E_x[.] $ y $ E_D[.] $ operadores en las notas de clase. Tenga en cuenta, sin embargo, que son un poco torpes en el sentido de que $ E_x [E_D [.]] $ debería escribirse como $ E_x [E_{D|x}]] $ ya que D y x están relacionados por el modelo. Estos describen básicamente "cómo se eligieron los valores de C" ( $ E_x $ ) y "dada la elección de los valores X, ¿cómo eligió los valores Y? $ E_{D|x} $ ). Por lo general, este último encspsula los supuestos del modelo y el primero se da por conocido.

Ahora, parece que usted está hablando de un problema con "no hay ruido" - ahora bien, si usted sabe que $ y=f (x) $ exactamente-, entonces cualquier estimador que no interpola los datos observados es necesariamente erróneo. La única fuente de "aleatoriedad" es qué valores "X" e "Y" concretos se observan. Esto tiene un sabor similar a la inferencia basada en el diseño para encuestas por muestreo.

La noción de sesgo en este contexto depende del "espacio muestral" para los valores X, la "distribución muestral" para los valores X y la función $ f(x) $ . Utilizo las comillas porque es totalmente razonable considerar casos degenerados en los que los valores X no son "aleatorios", sino que se fijan en valores preestablecidos (como ocurre con la predicción de un nuevo valor Y que no se utiliza para ajustar el modelo).

Ahora básicamente no se puede llegar más lejos con el sesgo de una función estimada $ h $ a menos que imponga algunas condiciones sobre lo que la función $ f$ podría parecer.

De hecho, sin la presencia de ningún ruido, se trata "simplemente" de una transformación de una variable aleatoria. Si se propone/supone una "distribución de muestreo " para la $ X $ valores, llame a este cdf $ G_X(x)=Pr (X\leq x) $ entonces la distribución correspondiente para la respuesta es $ G_Y (y)=Pr (Y\leq y)=Pr (f (X)\leq y)=\int I\{f (x)\leq y\} dG_X (x)$ . Para funciones continuas y diferenciables de 1 a 1, se puede simplificar aún más para afirmar que la FDP de "y" debe tener la forma $$ g_Y (y)=g_X (f^{-1}(y))|\frac {\partial f^{-1}(y)}{\partial y}|$$ donde $ f^{-1}(.)$ es la transformación inversa de $ f (.) $ . Así, para una función lineal $ f (x)=a +bx $ (función inversa de $ f^{-1}(y)=b^{-1} (y-a) $ ) combinado con un $[-1, 1] $ pdf para $ X $ da

$$ g_Y (y)=\frac {I[-1 \leq b^{-1}(y-a) \leq 1]}{2|b|}$$

Es decir, Y es uniforme $[a-b, a+b] $ si $ b> 0 $ y uniforme $[a+b, a-b] $ de lo contrario. Ahora podemos demostrar que el mle para $ a, b $ viene dado por el mismo ajuste OLS "saturado" , a saber $\hat {b}=\frac {y_1-y_2}{x_1-x_2} $ y $\hat {a}=\frac {y_2x_1-y_1x_2}{x_1-x_2}$ . De hecho, estos deben ser los valores exactos para $ a $ y $ b $ siempre que la función lineal sea correcta, independientemente de la distribución muestral de X. Otra forma de decir esto es que puede haber sólo uno relación lineal sin ruido entre dos o más pares X-Y. Esto también conduce a una distribución de predicción extremadamente agresiva degenerada en $ \hat {y }=\hat {a}+\hat {b} x $ con margen de error cero (tras observar x). La predicción agresiva procede de la hipótesis de "ausencia de ruido".

Como observación final, los datos observados no proporcionan información sobre cuál es esa relación para los pares "X-Y" que no se observan en su totalidad. Esta información sólo puede obtenerse a partir de otros datos, como las suposiciones sobre la suavidad y la continuidad de los datos. $ f (.) $ . Esto hace que el cálculo del sesgo sea imposible en un sentido general, porque su respuesta dependerá de alguna función arbitraria desconocida. Hay que suponer algo sobre lo que podría ser para calcular el sesgo de un estimador de $ f(.) $ (por ejemplo $ f (.) $ tiene una derivada de tercer orden, no tiene singularidades, es analítica, etc). Pero estas elecciones no pueden separarse de las que resultan de la comprobación estándar del modelo (por ejemplo, añadir un término cuadrático si un gráfico de los residuos muestra curvatura). Esto enturbia el uso práctico del "sesgo" de forma rigurosa y completamente general, ya que el conjunto de datos observados se analiza para decidir la estructura del modelo. Los distintos conjuntos de datos se analizan de formas diferentes, lo que añade un "elemento humano" al cálculo del sesgo (y también de la varianza) que es difícil de automatizar (lo que hace que Monte Carlo sea inviable) y de escribir una fórmula de lo que ocurre.

Dicho esto, la noción de sesgo sigue siendo útil como parte de una comprobación de los supuestos del modelo, pero en general es mejor considerarla en términos de complejidad y estabilidad del modelo, en mi opinión. El sesgo también es útil como herramienta conceptual para ayudar a comprender cuestiones generales de ajuste de modelos y la tensión entre la explicación de los datos observados y la predicción de datos no observados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X