Tengo cuatro variables numéricas. Todas ellas son medidas de la calidad del suelo. Cuanto mayor es la variable, mayor es la calidad. El rango para todas ellas es diferente:
Var1 de 1 a 10
Var2 de 1000 a 2000
Var3 de 150 a 300
Var4 de 0 a 5
Necesito combinar cuatro variables en una única puntuación de calidad del suelo que se clasifique correctamente.
Mi idea es muy sencilla. Estandarizar las cuatro variables, sumarlas y lo que se obtenga es la puntuación que debe ordenarse por rango. ¿Ve algún problema en aplicar este enfoque? ¿Hay algún otro enfoque (mejor) que recomendaría?
Gracias
Edita:
Gracias, chicos. Se discutió mucho sobre los "conocimientos técnicos"... Cosas de la agricultura... Esperaba que se hablara más de estadísticas. En cuanto a la técnica que utilizaré... Probablemente será una simple suma de puntuaciones z + regresión logística como experimento. Debido a que la gran mayoría de las muestras tiene mala calidad 90% Voy a combinar 3 categorías de calidad en uno y básicamente tener problema binario (somequality vs no-calidad). Mato dos pájaros de un tiro. Aumento mi muestra en términos de tasa de eventos y recurro a los expertos para que clasifiquen mis muestras. A continuación, las muestras clasificadas por los expertos se utilizarán para ajustar el modelo log-reg con el fin de maximizar el nivel de concordancia / discordancia con los expertos..... ¿Qué le parece?