El desequilibrio no es necesariamente un problema, pero la forma de llegar allí puede ser. Es erróneo basar su estrategia de muestreo en la variable de destino. Debido a que esta variable incorpora la aleatoriedad en el modelo de regresión, si la muestra en base a esto usted tendrá grandes problemas para realizar cualquier tipo de inferencia. Creo que no se puede "deshacer" los problemas.
Usted puede legítimamente por encima o por debajo de la muestra basada en el predictor de las variables. En este caso, siempre que se compruebe cuidadosamente que los supuestos del modelo parecen válidas (por ejemplo, homoscedasticity uno que viene a la mente es tan importante en esta situación, si usted tiene un "ordinario" de la regresión con las mismas de siempre de hipótesis), no creo que usted necesita para deshacer la corrección a la hora de predecir. Su caso ahora sería similar a un analista que ha diseñado un experimento de forma explícita a tener una gama equilibrada de las variables predictoras.
Edición - además de la expansión sobre el por qué es malo para muestra basada en Y
En el montaje de la norma modelo de regresión $y=Xb+e$ $e$ se espera que sea distribuido normalmente, tienen una media de cero y ser independientes e idénticamente distribuidas. Si usted elige a su muestra basada en el valor de la y (que incluye una contribución de $e$$Xb$) el correo ya no tienen una media de cero o ser idénticamente distribuidas. Por ejemplo, los valores bajos de y que pueden incluir valores muy bajos de correo podría ser menor probabilidad de ser seleccionados. Este ruinas cualquier inferencia basada en los medios habituales de ajuste de dichos modelos. Las correcciones pueden ser similares a los realizados en econometría para el ajuste de modelos truncados, pero son un dolor y requieren suposiciones adicionales, y sólo debe ser empleado whenm, no hay alternativa.
Considerar la extrema ilustración de abajo. Si usted truncar sus datos en un valor arbitrario para la variable de respuesta, introduce muy importantes sesgos. Si trunca por una variable explicativa, no es necesariamente un problema. Verá que la línea verde, basado en un subconjunto elegido por sus valores predictores, está muy cerca de la verdadera equipado línea; esto no se puede decir de la línea azul, basándose únicamente en los puntos azules.
Esto se extiende a los menos graves en el caso de los menores o sobremuestreo (porque el truncamiento puede ser visto como submuestreo, llevada a su extremo lógico).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")