2 votos

Al realizar una agrupación jerárquica, ¿hay que excluir las variables con alta correlación?

Tengo una pregunta sobre la agrupación jerárquica. Personalmente, he utilizado este método de agrupación jerárquica varias veces, pero no lo había aplicado antes a los datos a nivel de proteína.

Lo que estoy intentando hacer es agrupar pacientes (un total de 100 pacientes) utilizando la información sobre sus niveles de proteínas (unas 400 proteínas). Los datos están limpios y estandarizados.

En este caso, ¿es recomendable eliminar algunas proteínas que tengan correlaciones elevadas antes de realizar la agrupación jerárquica? (Normalmente, cuando se trata de regresión lineal, excluimos las variables que tienen una alta correlación con otras. Me pregunto si es necesario aplicar el mismo procedimiento).

¿O puedo conservar las 400 proteínas y aplicar directamente el método de agrupación jerárquica utilizando una métrica de distancia de correlación?

¡¡Estoy deseando escuchar opiniones!! ¡¡Gracias!!

4voto

Lewian Puntos 296

En última instancia, la respuesta es "depende". Depende de varias cosas, como el posible preprocesamiento y la distancia que utilices (supongo que la euclídea, pero ten en cuenta que no es la única opción). También hay varios métodos diferentes de agrupación jerárquica.

En mi opinión, el principal problema es el siguiente, suponiendo que se utilice la distancia euclidiana. En última instancia, las variables que utiliza defina el significado de la agrupación (es un error pensar que sólo hay una "verdadera" agrupación de los datos y una "verdadera" selección de variables que debería encontrarse - puede haber diferentes agrupaciones en diferentes grupos de variables y diferentes agrupaciones dependiendo de cómo las agregue exactamente). Si estandariza las variables, en un sentido bien definido todas tendrán el mismo peso en su agrupación.

Ahora la pregunta es: si en su situación hay variables fuertemente correlacionadas, ¿significa esto que esencialmente todas estas variables codifican la misma información, que sólo debería utilizarse una vez (es decir, con el mismo peso que cualquier otra variable individual que no esté altamente correlacionada con otras)? En este caso, se puede argumentar que las proteínas deberían eliminarse para que la información compartida entre ellas sólo se tenga en cuenta una vez, como debería ser. Obsérvese, no obstante, que existen métodos alternativos, como sustituir un grupo de variables altamente correlacionadas por su primer componente principal (que representa la "información compartida" mejor que si se utiliza una y se descartan las demás).

Sin embargo, también puede ser que, en relación con su objetivo de agrupación, si varias variables están altamente correlacionadas, esto de hecho añada información que debería ser utilizada por el proceso de agrupación. Un ejemplo es que en las estadísticas sociales la riqueza y el nivel de educación pueden estar altamente correlacionados, pero siguen siendo esencialmente aspectos diferentes de lo que es de interés, por lo que la agrupación debería utilizarlos de todos modos suponiendo que ambos son relevantes para el objetivo de la agrupación. La correlación significa básicamente que, juntos, tienen una fuerte influencia en la agrupación, lo que puede ser apropiado, ya que cada uno puede ser importante para el objetivo de la agrupación por derecho propio.

Es importante darse cuenta de que se trata de una cuestión que los datos no pueden decidir por sí solos. Depende del significado y el uso que se pretenda dar a la agrupación, así como del conocimiento del significado de las variables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X