Estoy buscando cualquier tipo de práctica recomendada o formas de abordar esta situación.
A menudo me encuentro con conjuntos de datos que tienen una variable categórica que me tienta a dividir el conjunto de datos principal en subconjuntos o a codificar como categórica.
Por ejemplo, puedo estar tratando de investigar el precio de un coche dependiendo de dónde se venda: Asia o Europa. Si estoy tratando de ejecutar una regresión OLS, bosque aleatorio, gbm, lasso, etc - ¿cuál es la mejor práctica o cosas que deben pasar por mi cabeza aquí.
Si, por ejemplo, la edad o las millas por galón de un coche se valoran de forma diferente en Asia y en Europa, ¿la variable factorial lo tendrá en cuenta en el modelo para producir resultados similares a los que se obtendrían si se dividiera en dos conjuntos de datos?
Sí, me doy cuenta de que la división por la variable categórica elimina la capacidad de "ver" directamente que las variables de impacto, pero más allá de esto estoy buscando orientación. Este es un ejemplo sencillo, pero a menudo se me plantea una situación como esta en la que necesito determinar cómo llegar a todas las diversas agrupaciones y conjuntos de datos de entrenamiento y lo que no.