Muestreo para el Desequilibrio de Datos en Regresión

Question

Muestreo para el Desequilibrio de Datos en Regresión

Preguntado el 9 de Junio, 2012: Cuando se hizo la pregunta
811 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

No han sido buenas preguntas sobre el manejo de desequilibrio de datos en la clasificación de contexto, pero me estoy preguntando lo que hacen las personas de la muestra para la regresión.

Dicen que el dominio del problema es muy sensible a la señal, pero sólo un poco sensible a la magnitud de la meta. Sin embargo, la magnitud es lo suficientemente importante como el modelo de regresión continua (destino), no de clasificación (positivo vs negativo clases). Y decir, en el dominio del problema que cualquier conjunto de datos de entrenamiento se tienen 10 veces más negativos que positivos objetivos.

En este escenario, podría sobremuestrear el positivo-ejemplos de objetivo para que coincida con el recuento de negativa de ejemplos de objetivo, y luego entrenar un modelo para diferenciar los dos casos. Obviamente, el enfoque de la capacitación hace mal en desequilibrio de datos, por lo que necesito para hacer el muestreo de algún tipo. ¿Cuál sería una manera decente para "deshacer" este sobremuestreo cuando se hacen predicciones? Tal vez la traducción de la (negativo) de la media o la mediana de la meta de la formación natural de los datos?

Preguntado el 9 de Junio, 2012 por KdgDev

Answer 1

2 Respuestas

Answer 2

22voto

Ted Puntos 854

El desequilibrio no es necesariamente un problema, pero la forma de llegar allí puede ser. Es erróneo basar su estrategia de muestreo en la variable de destino. Debido a que esta variable incorpora la aleatoriedad en el modelo de regresión, si la muestra en base a esto usted tendrá grandes problemas para realizar cualquier tipo de inferencia. Creo que no se puede "deshacer" los problemas.

Usted puede legítimamente por encima o por debajo de la muestra basada en el predictor de las variables. En este caso, siempre que se compruebe cuidadosamente que los supuestos del modelo parecen válidas (por ejemplo, homoscedasticity uno que viene a la mente es tan importante en esta situación, si usted tiene un "ordinario" de la regresión con las mismas de siempre de hipótesis), no creo que usted necesita para deshacer la corrección a la hora de predecir. Su caso ahora sería similar a un analista que ha diseñado un experimento de forma explícita a tener una gama equilibrada de las variables predictoras.

Edición - además de la expansión sobre el por qué es malo para muestra basada en Y

En el montaje de la norma modelo de regresión $y=Xb+e$ $e$ se espera que sea distribuido normalmente, tienen una media de cero y ser independientes e idénticamente distribuidas. Si usted elige a su muestra basada en el valor de la y (que incluye una contribución de $e$$Xb$) el correo ya no tienen una media de cero o ser idénticamente distribuidas. Por ejemplo, los valores bajos de y que pueden incluir valores muy bajos de correo podría ser menor probabilidad de ser seleccionados. Este ruinas cualquier inferencia basada en los medios habituales de ajuste de dichos modelos. Las correcciones pueden ser similares a los realizados en econometría para el ajuste de modelos truncados, pero son un dolor y requieren suposiciones adicionales, y sólo debe ser empleado whenm, no hay alternativa.

Considerar la extrema ilustración de abajo. Si usted truncar sus datos en un valor arbitrario para la variable de respuesta, introduce muy importantes sesgos. Si trunca por una variable explicativa, no es necesariamente un problema. Verá que la línea verde, basado en un subconjunto elegido por sus valores predictores, está muy cerca de la verdadera equipado línea; esto no se puede decir de la línea azul, basándose únicamente en los puntos azules.

Esto se extiende a los menos graves en el caso de los menores o sobremuestreo (porque el truncamiento puede ser visto como submuestreo, llevada a su extremo lógico).

enter image description here

# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)

# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
    "Fitted - subset based on y"), lty=1, col=1:4, bty="n")

Respondido el 10 de Junio, 2012 por Ted (854 Puntos )

Answer 3

3voto

Chris Puntos 116

Es una cuestión de si usted está haciendo el análisis causal o de predicción. Leer http://m.statisticalhorizons.com/?ref=http%3A%2F%2Ft.co%2F54MWZrVAyX&url=http%3A%2F%2Fstatisticalhorizons.com%2Fprediction-vs-causation-in-regression-analysis&width=640

De remuestreo en la variable de destino para la formación de los propósitos de predicción funciona siempre como una de las pruebas en un no-remuestreada a cabo el muestreo. El final de la tabla de rendimiento debe estar basada solamente en la bodega. Para mayor precisión en la determinación de la previsibilidad de la modelo, la cruz de validación de técnicas que deben ser empleadas.

"Deshacer" en el último análisis del modelo de regresión de y sobre el desequilibrio del conjunto de datos.

Respondido el 23 de Mayo, 2015 por Chris (116 Puntos )

Muestreo para el Desequilibrio de Datos en Regresión

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Muestreo para el Desequilibrio de Datos en Regresión

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: