39 votos

Muestreo para el Desequilibrio de Datos en Regresión

No han sido buenas preguntas sobre el manejo de desequilibrio de datos en la clasificación de contexto, pero me estoy preguntando lo que hacen las personas de la muestra para la regresión.

Dicen que el dominio del problema es muy sensible a la señal, pero sólo un poco sensible a la magnitud de la meta. Sin embargo, la magnitud es lo suficientemente importante como el modelo de regresión continua (destino), no de clasificación (positivo vs negativo clases). Y decir, en el dominio del problema que cualquier conjunto de datos de entrenamiento se tienen 10 veces más negativos que positivos objetivos.

En este escenario, podría sobremuestrear el positivo-ejemplos de objetivo para que coincida con el recuento de negativa de ejemplos de objetivo, y luego entrenar un modelo para diferenciar los dos casos. Obviamente, el enfoque de la capacitación hace mal en desequilibrio de datos, por lo que necesito para hacer el muestreo de algún tipo. ¿Cuál sería una manera decente para "deshacer" este sobremuestreo cuando se hacen predicciones? Tal vez la traducción de la (negativo) de la media o la mediana de la meta de la formación natural de los datos?

22voto

Ted Puntos 854

El desequilibrio no es necesariamente un problema, pero la forma de llegar allí puede ser. Es erróneo basar su estrategia de muestreo en la variable de destino. Debido a que esta variable incorpora la aleatoriedad en el modelo de regresión, si la muestra en base a esto usted tendrá grandes problemas para realizar cualquier tipo de inferencia. Creo que no se puede "deshacer" los problemas.

Usted puede legítimamente por encima o por debajo de la muestra basada en el predictor de las variables. En este caso, siempre que se compruebe cuidadosamente que los supuestos del modelo parecen válidas (por ejemplo, homoscedasticity uno que viene a la mente es tan importante en esta situación, si usted tiene un "ordinario" de la regresión con las mismas de siempre de hipótesis), no creo que usted necesita para deshacer la corrección a la hora de predecir. Su caso ahora sería similar a un analista que ha diseñado un experimento de forma explícita a tener una gama equilibrada de las variables predictoras.

Edición - además de la expansión sobre el por qué es malo para muestra basada en Y

En el montaje de la norma modelo de regresión $y=Xb+e$ $e$ se espera que sea distribuido normalmente, tienen una media de cero y ser independientes e idénticamente distribuidas. Si usted elige a su muestra basada en el valor de la y (que incluye una contribución de $e$$Xb$) el correo ya no tienen una media de cero o ser idénticamente distribuidas. Por ejemplo, los valores bajos de y que pueden incluir valores muy bajos de correo podría ser menor probabilidad de ser seleccionados. Este ruinas cualquier inferencia basada en los medios habituales de ajuste de dichos modelos. Las correcciones pueden ser similares a los realizados en econometría para el ajuste de modelos truncados, pero son un dolor y requieren suposiciones adicionales, y sólo debe ser empleado whenm, no hay alternativa.

Considerar la extrema ilustración de abajo. Si usted truncar sus datos en un valor arbitrario para la variable de respuesta, introduce muy importantes sesgos. Si trunca por una variable explicativa, no es necesariamente un problema. Verá que la línea verde, basado en un subconjunto elegido por sus valores predictores, está muy cerca de la verdadera equipado línea; esto no se puede decir de la línea azul, basándose únicamente en los puntos azules.

Esto se extiende a los menos graves en el caso de los menores o sobremuestreo (porque el truncamiento puede ser visto como submuestreo, llevada a su extremo lógico).

enter image description here

# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)

# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
    "Fitted - subset based on y"), lty=1, col=1:4, bty="n")

3voto

Chris Puntos 116

Es una cuestión de si usted está haciendo el análisis causal o de predicción. Leer http://m.statisticalhorizons.com/?ref=http%3A%2F%2Ft.co%2F54MWZrVAyX&url=http%3A%2F%2Fstatisticalhorizons.com%2Fprediction-vs-causation-in-regression-analysis&width=640

De remuestreo en la variable de destino para la formación de los propósitos de predicción funciona siempre como una de las pruebas en un no-remuestreada a cabo el muestreo. El final de la tabla de rendimiento debe estar basada solamente en la bodega. Para mayor precisión en la determinación de la previsibilidad de la modelo, la cruz de validación de técnicas que deben ser empleadas.

"Deshacer" en el último análisis del modelo de regresión de y sobre el desequilibrio del conjunto de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X