Estoy construyendo un modelo y creo que la ubicación geográfica puede ser muy buena para predecir mi variable objetivo. Tengo el código postal de cada uno de mis usuarios. Sin embargo, no estoy del todo seguro de cuál es la mejor manera de incluir el código postal como característica de predicción en mi modelo. Aunque el código postal es un número, no significa nada si el número sube o baja. Podría binarizar los 30.000 códigos postales y luego incluirlos como características o nuevas columnas (por ejemplo, {user_1: {61822: 1, 62118: 0, 62444: 0, etc.}}. Sin embargo, parece que esto añadiría una tonelada de características a mi modelo.
¿Alguna idea sobre la mejor manera de manejar esta situación?