25 votos

Creación de un índice de calidad a partir de múltiples variables para permitir la ordenación por rango

Tengo cuatro variables numéricas. Todas ellas son medidas de la calidad del suelo. Cuanto mayor es la variable, mayor es la calidad. El rango para todas ellas es diferente:

Var1 de 1 a 10

Var2 de 1000 a 2000

Var3 de 150 a 300

Var4 de 0 a 5

Necesito combinar cuatro variables en una única puntuación de calidad del suelo que se clasifique correctamente.

Mi idea es muy sencilla. Estandarizar las cuatro variables, sumarlas y lo que se obtenga es la puntuación que debe ordenarse por rango. ¿Ve algún problema en aplicar este enfoque? ¿Hay algún otro enfoque (mejor) que recomendaría?

Gracias

Edita:

Gracias, chicos. Se discutió mucho sobre los "conocimientos técnicos"... Cosas de la agricultura... Esperaba que se hablara más de estadísticas. En cuanto a la técnica que utilizaré... Probablemente será una simple suma de puntuaciones z + regresión logística como experimento. Debido a que la gran mayoría de las muestras tiene mala calidad 90% Voy a combinar 3 categorías de calidad en uno y básicamente tener problema binario (somequality vs no-calidad). Mato dos pájaros de un tiro. Aumento mi muestra en términos de tasa de eventos y recurro a los expertos para que clasifiquen mis muestras. A continuación, las muestras clasificadas por los expertos se utilizarán para ajustar el modelo log-reg con el fin de maximizar el nivel de concordancia / discordancia con los expertos..... ¿Qué le parece?

23voto

jldugger Puntos 7490

El enfoque propuesto puede dar un resultado razonable, pero sólo por accidente. A esta distancia -es decir, tomando la pregunta al pie de la letra, con los significados de las variables disimulados- surgen algunos problemas:

  1. Ni siquiera es evidente que cada variable esté relacionada positivamente con la "calidad". Por ejemplo, ¿qué pasa si un 10 para "Var1" significa que la "calidad" es peor que la calidad cuando Var1 es 1? Entonces añadirlo a la suma es lo más incorrecto que se puede hacer; tiene que ser restado.

  2. La normalización implica que la "calidad" depende del propio conjunto de datos. Por lo tanto, la definición cambiará con diferentes conjuntos de datos o con adiciones y supresiones de los mismos. Esto puede convertir la "calidad" en un constructo arbitrario, transitorio y no objetivo e impiden las comparaciones entre conjuntos de datos.

  3. No existe una definición de "calidad". ¿Qué se supone que significa? ¿Capacidad para bloquear la migración de agua contaminada? ¿Capacidad para favorecer los procesos orgánicos? ¿Capacidad para favorecer determinadas reacciones químicas? Los suelos buenos para uno de estos fines pueden ser especialmente malos para otros.

  4. El problema, tal como está planteado, no tiene razón de ser: por qué ¿es necesario clasificar la "calidad"? ¿Para qué se utilizará la clasificación: para hacer más análisis, para seleccionar el "mejor" suelo, para decidir una hipótesis científica, para desarrollar una teoría, para promocionar un producto?

  5. Las consecuencias de la clasificación no son evidentes. Si la clasificación es incorrecta o inferior, ¿qué ocurrirá? ¿Tendrá el mundo más hambre, el medio ambiente estará más contaminado, los científicos más engañados, los jardineros más decepcionados?

  6. ¿Por qué debería ser adecuada una combinación lineal de variables? ¿Por qué no deberían multiplicarse o exponenciarse o combinarse como un posinomio ¿o algo aún más esotérico?

  7. Las medidas brutas de calidad del suelo suelen reexpresarse. Por ejemplo, el registro de la permeabilidad suele ser más útil que la propia permeabilidad y el registro de la actividad de los iones hidrógeno (pH) es mucho más útil que la actividad. ¿Cuáles son las reexpresiones adecuadas de las variables para determinar la "calidad"?

Uno esperaría que la ciencia del suelo respondiera a la mayoría de estas preguntas e indicara cuál podría ser la combinación adecuada de las variables para cualquier sentido objetivo de "calidad". Si no es así, nos enfrentamos a un problema de valoración multiatributo . El artículo de Wikipedia enumera docenas de métodos para abordar esta cuestión. En mi humilde opinión, la mayoría de ellos son inadecuados para abordar una cuestión científica. Uno de los pocos con una teoría sólida y potencial aplicabilidad a cuestiones empíricas es Teoría de la valoración por atributos múltiples de Keeney y Raiffa (MAVT). Requiere ser capaz de determinar, para dos combinaciones específicas cualesquiera de las variables, cuál de las dos debería tener mayor rango. Una secuencia estructurada de tales comparaciones revela (a) las formas adecuadas de reexpresar los valores; (b) si una combinación lineal de los valores reexpresados producirá o no la clasificación correcta; y (c) si una combinación lineal es posible, le permitirá calcular los coeficientes. En resumen, MAVT proporciona algoritmos para resolver su problema siempre que usted ya sepa cómo comparar casos concretos.

2voto

Shine Puntos 123

¿Alguien ha consultado el artículo de Russell G. Congalton "Review of Assessing the Accuracy of Classifications of Remotely Sensed Data" de 1990? En él se describe una técnica conocida como matriz de error para varing matrices, también un término que utiliza llamado "normalización de datos", por lo que uno tiene todos los vectores diferentes y "normaliza" o los establece en la igualdad de 0 a 1. Básicamente, cambiar todos los vectores para igualar los rangos de 0 a 1.

0voto

Steve Scheffler Puntos 1166

Otra cosa que no has comentado es la escala de las mediciones. V1 y V5 parece que son de orden de rango y el otro parece que no. Así que la estandarización puede estar sesgando la puntuación. Así que es mejor transformar todas las variables en rangos y determinar una ponderación para cada variable, ya que es muy poco probable que tengan el mismo peso. Una ponderación igual es más bien un "no nada" por defecto. Puede que quiera hacer algún análisis de correlación o regresión para obtener algunas ponderaciones a priori.

0voto

Trevor Puntos 13

Tuve un problema similar hace poco y aunque añadir mi enfoque a las respuestas agradables. Creo que para encontrar una forma sencilla de determinar qué variable conduce a la mejor clasificación. Uno podría transformar su problema a un enfoque gridsearch:

Básicamente se utiliza una puntuación combinada para la clasificación que se compone así:

Finel_score = Var1 * A + Var2 * B + Var3 * C ....

A continuación, puede calcular la puntuación final con diferentes valores para A,B,C (se podría utilizar sklearn gridsearch) ... y comparar la clasificación resultante con una clasificación esperada (se necesita algo de verdad para determinar la bondad de su clasificación). Los mejores parámetros resultan en los pesos de sus variables individuales.

-3voto

The How-To Geek Puntos 101

Siguiendo con la respuesta de Ralph Winters, podría utilizar PCA (análisis de componentes principales) en la matriz de puntuaciones convenientemente estandarizadas. Así obtendrá un vector de pesos "natural" que podrá utilizar para combinar las puntuaciones futuras.

Hágalo también después de que todas las puntuaciones se hayan transformado en rangos. Si los resultados son muy similares, tiene buenas razones para seguir con cualquiera de los dos métodos. Si hay discrepancias, esto dará lugar a preguntas interesantes y a una mejor comprensión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X