Estoy trabajando en un conjunto de datos con la mayoría de las columnas categóricas como Nombre del cliente, Nombre de la pieza, ID de la tienda, etc. He intentado codificar estas columnas y convertirlas en columnas numéricas utilizando pd.get_dummies(). Sin embargo, las categorías del conjunto de datos son exhaustivas. Siempre existe la posibilidad de obtener nuevas categorías en los datos de prueba o en las predicciones en tiempo real. ¿Cómo se soluciona este problema?
Por ejemplo: Mi conjunto de datos contiene el nombre de la columna como Customer_Name. Actualmente Customer_Name contiene Pepsi, ITC, Weatherford, Philips.
Sin embargo, cuando mi modelo se despliega en tiempo real, si la nueva consulta contiene el nombre del cliente como "Samsung".
Habrá un error porque estoy usando pd.get_dummies y el tamaño de la característica es diferente.
Estoy planeando desplegar este modelo como una API basada en la nube. ¿Hay alguna solución disponible?