8 votos

Tratar con los ejemplos de entrenamiento desequilibrado/cero-inflado para regresión

Estoy tratando de predecir la lluvia en un desierto con un modelo de regresión. Sin embargo, como es de esperar, la mayoría de mis ejemplos de formación se han puesto a cero etiquetas. Tengo dos preguntas:

una. ¿Qué es una medida de rendimiento?

Para problemas de clasificación, parece convencionales para evaluar la matriz de confusión, F1 puntuación u otras medidas (por ejemplo, kappa) normalizado para el desequilibrio de las clases.

¿Qué pasa en una regresión? Cualquier modelo de salida con cerca de constante cero predicción a lograr un muy bajo RMSE/MAE, pero no le da una buena intuición sobre lo bueno que mi modelo será, en última instancia, la predicción de la cantidad de lluvia.

b. ¿Qué es un modelo adecuado?

Parece que una estrategia común con cero-inflado de datos es a dividir esto en dos etapas problema binario con un problema de clasificación para {lluvia, sin lluvia}, escoger mi favorito clasificador de validación cruzada, a continuación, dividir mis conjunto de datos con que clasificadora para ejecutar por separado un problema de regresión condicional en la lluvia prevista.

La principal preocupación que tengo con este enfoque es que tengo datos limitados por la regresión paso (hay muy pocos ejemplos de formación condicional en la lluvia prevista).

Hay un método mejor que puedo tomar?

4voto

Daniel Lew Puntos 39063

(a) Evaluar el rendimiento de la(s) que usted está interesado en. Por lo tanto, si usted está interesado en conseguir la expectativa de la respuesta E(y) a la derecha, luego RMSE MAE o son útiles. De manera similar, podría también la esperanza condicional E(y | y > 0), es decir, se espera que la cantidad de precipitación, dado que no es la precipitación. Si usted está más interesado en la probabilidad de precipitación P(y > 0) usted puede mirar el correspondiente a la clasificación errónea de la tasa o el Brier score etc. Y si usted está interesado en la distribución, las reglas de puntuación como el logaritmo de la probabilidad (o registro de puntuación) o el SDRC (continua ranking de puntuación de la probabilidad) sería natural.

(b) en Lugar de un modelo de dos etapas con el binario primer paso y cero trunca segundo paso, también se puede utilizar un único modelo de regresión con una respuesta que es censurado en cero. Un ejemplo realizado con la precipitación en un clima de previsión contexto está disponible en un documento acerca de nuestra crch paquete de R (ver https://journal.R-project.org/archive/accepted/messner-mayr-zeileis.pdf).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X