12 votos

Cuando menos plazas sería una mala idea?

Si tengo un modelo de regresión: $$ Y = X\beta + \varepsilon $$ donde$\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}$$\mathbb{E}[\varepsilon]=(0, \ldots , 0)$,

cuando el uso de $\beta_{\text{OLS}}$, el estimador de mínimos cuadrados ordinarios de $\beta$, ser una mala elección para un estimador?

Estoy tratando de averiguar un ejemplo fueron los mínimos cuadrados funciona mal. Así que estoy buscando una distribución de los errores que satisface la hipótesis anterior, pero los rendimientos de los malos resultados. Si la familia de la distribución será determinada por la media y la varianza de la que sería genial. Si no, bien también.

Yo sé que los "malos resultados" es un poco vago, pero creo que la idea es comprensible.

Sólo para evitar confusiones, yo sé de mínimos cuadrados no son óptimas, y que hay mejores estimadores como la regresión ridge. Pero eso no es lo que estoy apuntando. Quiero un ejemplo fueron mínimos cuadrados no sería natural.

Me imagino cosas como, el vector de error $\epsilon$ vive en un no-convexa de la región de $\mathbb{R}^n$, pero no estoy seguro de eso.

Edit 1: Como una idea para ayudar a una respuesta (que no puedo entender cómo se toman otras). $\beta_{\text{OLS}}$ AZUL. Por lo que podría ayudar a pensar cuando un linear unbiased estimator no sería una buena idea.

Edit 2: Como Brian señalado, si $XX'$ es mal condicionado, a continuación, $\beta_{\text{OLS}}$ es una mala idea porque la varianza es muy grande, y la Cresta de Regresión debe ser utilizado en su lugar. Estoy más interesado en saber qué distribución en $\varepsilon$ con el fin de hacer menos plazas de trabajo en las malas.

$\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilon$ Hay una distribución con cero la media y la identidad de la varianza de la matriz de $\varepsilon$, que hace que este estimador no es eficiente?

8voto

Bill Puntos 3605

Brian Borchers respuesta es muy buena---los datos que contienen extraño valores atípicos a menudo no son bien analizados por OLS. Yo sólo voy a ampliar sobre esto mediante la adición de una imagen, un Monte Carlo, y algunos R código.

Considere la posibilidad de una muy simple modelo de regresión: \begin{align} Y_i &= \beta_1 x_i + \epsilon_i\\~\\ \epsilon_i &= \left\{\begin{array}{rcl} N(0,0.04) &w.p. &0.999\\ 31 &w.p. &0.0005\\ -31 &w.p. &0.0005 \end{array} \right. \end{align}

Este modelo se ajusta a la configuración con un coeficiente de la pendiente de 1.

Adjunto gráfico muestra un conjunto de datos que consta de 100 observaciones sobre este modelo, con la variable x de la ejecución de 0 a 1. En los trazados conjunto de datos, hay un sorteo en el error, el cual viene con un valor atípico valor (+31 en este caso). También se representa son la regresión por MCO de la línea en azul y el mínimo absolutos de las desviaciones de la regresión de la línea en rojo. Observe cómo OLS pero no MUCHACHO está distorsionada por el outlier:

OLS vs LAD with an outlier

Podemos verificar esta haciendo un Monte Carlo. En el Monte Carlo, generar un conjunto de datos de 100 observaciones utilizando el mismo $x$ e una $\epsilon$ con la anterior distribución de 10.000 veces. En los 10.000 replicaciones, no vamos a obtener un valor atípico en la gran mayoría. Pero a los pocos vamos a conseguir un valor atípico, y se va a atornillar OLS pero no MUCHACHO cada vez. El R código a continuación se ejecuta el Monte Carlo. Aquí están los resultados para los coeficientes de la pendiente:

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Ambos OLS y LAD producir estimadores insesgados de (las pistas son tanto 1.00 promedio de más de 10.000 replicaciones). OLS produce un estimador con una mayor desviación estándar, sin embargo, 0,34 frente a 0.09. Por lo tanto, la OPERACIÓN no es mejor y más eficiente entre los imparcial de los peritos, aquí. Todavía es AZUL, claro, pero el CHAVAL no es lineal, por lo que no hay ninguna contradicción. Aviso el salvaje errores OLS puede hacer en el Min y Max de la columna. No tan CHAVAL.

Aquí está el código R para ambos, el gráfico y el de Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
    summary(lad.slopes)
    sd(lad.slopes$estimate)

8voto

Zizzencs Puntos 1358

Un ejemplo sería el caso en que no se desea estimar la media. Esto salió en el trabajo que solía hacer cuando estábamos estimar el número de parejas sexuales de las personas, como parte de la modelización de la propagación del VIH/SIDA. Había más interés en las colas de la distribución: el Que la gente tiene muchos socios?

En este caso, usted podría querer cuantil de regresión; subutilizado método, en mi opinión.

6voto

Brian Borchers Puntos 2546

Si $X$ es un mal condicionados de la matriz o exactamente singular, entonces su estimador de mínimos cuadrados será extremadamente inestable e inútil en la práctica.

Si usted limitar su atención a la distribución de $\epsilon$, entonces usted debe tener en mente que el de Gauss-Markov teorema asegura que la solución de mínimos cuadrados serán de un mínimo varianza del estimador imparcial.

Sin embargo, si la distribución de los $\epsilon$ es lo suficientemente intenso, entonces es posible construir ejemplos en los que la distribución de las estimaciones que tiene malas propiedades (en particular, la posibilidad (aunque con baja probabilidad) de muy grandes errores en $\beta$) a pesar de ser de varianza mínima.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X