Estoy tratando de predecir la lluvia en un desierto con un modelo de regresión. Sin embargo, como es de esperar, la mayoría de mis ejemplos de formación se han puesto a cero etiquetas. Tengo dos preguntas:
una. ¿Qué es una medida de rendimiento?
Para problemas de clasificación, parece convencionales para evaluar la matriz de confusión, F1 puntuación u otras medidas (por ejemplo, kappa) normalizado para el desequilibrio de las clases.
¿Qué pasa en una regresión? Cualquier modelo de salida con cerca de constante cero predicción a lograr un muy bajo RMSE/MAE, pero no le da una buena intuición sobre lo bueno que mi modelo será, en última instancia, la predicción de la cantidad de lluvia.
b. ¿Qué es un modelo adecuado?
Parece que una estrategia común con cero-inflado de datos es a dividir esto en dos etapas problema binario con un problema de clasificación para {lluvia, sin lluvia}, escoger mi favorito clasificador de validación cruzada, a continuación, dividir mis conjunto de datos con que clasificadora para ejecutar por separado un problema de regresión condicional en la lluvia prevista.
La principal preocupación que tengo con este enfoque es que tengo datos limitados por la regresión paso (hay muy pocos ejemplos de formación condicional en la lluvia prevista).
Hay un método mejor que puedo tomar?