Estoy realizando una tarea de regresión y las variables de respuesta de mi conjunto de datos tienen una distribución sesgada. Digamos, para simplificar, que tengo un modelo Y~X e Y(variable de respuesta) está en [1,5] pero hay muchos más valores en el rango [4,5] que en el rango [1,2]. Como resultado, un predictor mayoritario que predice 4,5 para Y independientemente del valor de X puede completar con regresión lineal si sólo miro el error MSE.
Me pregunto si hay alguna forma metódica de corregir el MSE para considerar este caso y quizás penalizar más al predictor mayoritario cuando se equivoca en Y=1 que cuando se equivoca en Y=5. Básicamente estoy buscando una medida de error justa para datos sesgados.
Actualización: Para simplificar, digamos que el pronosticador mayoritario predice 4,5 para todo, independientemente del valor de X. Mi pronosticador predice 1 con exactitud, pero siempre predice 4,4 para los 5's.
el conjunto de prueba para Y es un 1 y el resto son 200 números y cada uno es igual a 5. Según el MSE, el predictor mayoritario es mejor que mi predictor, pero no tiene sentido.
Quiero modificar el MSE para que favorezca las predicciones precisas para 1's en comparación con las predicciones precisas para 5's. Tal vez pueda multiplicar cada residuo por el inverso de la frecuencia de la Y real? también ¿cómo puedo utilizar un MSE tales para los casos que Y es continua?
actualización 2: Así que algunas personas sugirieron que quizá Y debería muestrearse de forma más adecuada y que necesito encontrar una submuestra de mis datos que proporcione una distribución uniforme de Y. Esto no es posible en mi caso. Digamos que estoy rastreando amazon y la mayoría de las valoraciones que veo son 5 (ya que amazon elimina los productos de bajo rendimiento), pero también hay algunos artículos con valoración 1. Ahora bien, si utilizo un predictor mayoritario que predice 5 en todas partes va a vencer a mi SVM en términos de valor MSE, pero el predictor mayoritario no aporta ningún valor a mi sistema. Además, no quiero tirar mis datos sólo para que la distribución de las valoraciones sea uniforme. Creo que debería serlo seleccionando adecuadamente la métrica (medida del error)
Se adjunta un ejemplo de distribución.
4 votos
Un malentendido muy discutido, que podría estar operando aquí (búsquelo), es suponer que la asimetría en las respuestas es un problema. En general, no lo es. Lo que importa es la distribución de residuos . ¿Qué se puede decir al respecto?
0 votos
@whuber Si él dice que la variable de respuesta Y tiene una distribución sesgada supongo que podría haber dos razones para ello (1) La forma en que las muestras en el espacio X conduce a la asimetría en Y o (2) que las muestras de una manera que se extendería a cabo la Ys, pero los residuos son muy sesgada. En el caso (1), la solución podría ser tomar más muestras en regiones que rellenen los huecos en Y. En el caso (2), podría utilizarse un método de regresión robusto, como la regresión del valor mínimo absoluto, que no penaliza tanto las grandes desviaciones de la línea de regresión.
0 votos
@whuber en aras de la simplicidad digamos que la mayoría predictor predice 4,5 para todo, independientemente de X y el conjunto de prueba para Y es uno 1 y el resto son 200 valores cada uno igual a 5. Mi predictor predice 1 acuratly pero siempre predice 4,4 para 5's. Mi predictor predice acertadamente 1 pero siempre predice 4,4 para 5. Según el MSE, el predictor mayoritario es mejor, pero no tiene sentido. Por lo tanto, quiero modificar el MSE para favorecer las predicciones precisas de 1 a las predicciones precisas de 5.
0 votos
Parece que el único caso de $Y=1$ es un valor atípico de alto apalancamiento y debe tratarse como tal.
0 votos
@whuber seguro, pero yo estaba tratando de construir un ejemplo extremo para demostrar el problema con mse como la medida de error. En mi conjunto de datos número de 5 es 35 veces el número de 1 y de hecho Y son continuos y no ordinal.
0 votos
Quise decir "no penaliza" en el comentario anterior. @MarkSAlen Como dije basándome en el comentario de Bill Huber la forma en que debes tratar el problema difiere dependiendo de por qué la distribución de Y está sesgada. Si es debido a la matriz de diseño X cambiar X añadiendo más puntos que eliminará la asimetría. Pero si no es el diseño X entonces debe ser que la distribución de error es sesgada en cuyo caso pasar de mínimos cuadrados a un método robusto.
0 votos
MichaelChernick y @whuber acaban de añadir más aclaraciones a la pregunta
0 votos
(1) Es matemáticamente imposible que el "predictor mayoritario" (es decir, una constante) mejore una solución que optimice la "medida de error". (2) La medida de error es más fundamental que la técnica de ajuste: está directamente relacionada con su función de pérdida. Concéntrese en modificar la técnica de ajuste (es decir, la forma del modelo) en lugar de cambiar la medida de error. Aquí tiene una respuesta ordenada discreta, lo que sugiere (quizás) un modelo logístico ordenado, posiblemente junto con interacciones o transformaciones no lineales de las variables explicativas.