Estoy trabajando en un problema de clasificación/predicción en el que tengo que predecir la ubicación de un objeto. El problema que tengo es que para cada ubicación, tengo un número único y diferente de dimensionalidad de las características. Así, por ejemplo, si estoy buscando un objeto en 5 posibles ubicaciones. Tengo 10.000 muestras de entrenamiento y prueba en la ubicación 1, que tienen dimensionalidad 1000, las características de la ubicación 2 tienen dimensionalidad 500, y así sucesivamente, (imaginemos que la ubicación 5 tiene dimensionalidad 50).
¿Cuál sería la forma correcta de evaluar una predicción si las características tienen dimensiones diferentes? Por ejemplo, utilizar una métrica de distancia euclidiana mediante Vecinos más Cercanos sería un mal enfoque, ya que muy probablemente tendré una distancia mínima (de media) para el caso de 50 dimensiones que para el caso de 1000 dimensiones, aunque el caso de 1000 dimensiones pueda ser correcto.
¿Cómo debo proceder para el caso del vecino más próximo, o para otros clasificadores como LDA y SVM? La aplicación de un soft-max, en la puntuación de cada salida no parece hacer el truco por las razones anteriores explicado antes ...