He probado muchos modelos diferentes de clasificación de texto de scikit learn. Entrené el modelo usando algunos posts de personal finance stack exchange. Los mensajes se clasifican en las cuatro clases siguientes "hipoteca", "inversión", "tarjeta de crédito" e "impuestos". En general, el modelo funciona muy bien cuando se prueba utilizando el conjunto de datos de prueba (he tallado el 20% de los datos para fines de prueba). Pero si pruebo algo que no tiene nada que ver con las finanzas personales ("¿dónde está el baño?", por ejemplo), el modelo lo clasifica como "inversión". El problema es que el modelo siempre elige una de las cuatro clases, por irrelevante que sea el texto. Las probabilidades que el modelo asigna a las cuatro clases siempre suman 1,0. Siempre hay una que gana. ¿Hay alguna forma de ajustar el clasificador/modelo para que en el caso de que la entrada sea irrelevante para cualquiera de las clases, las cuatro probabilidades sean bajas (no sumen 1,0)?
Gracias, Ryan