3 votos

¿Por qué las variables ficticias no tienen el problema de la categoría continua adyacente en el análisis de conglomerados?

Sé que si utilizamos variables categóricas en el análisis de conglomerados supondremos que la escala es continua y no tenemos este concepto de distancia entre dos categorías adyacentes. Pero, ¿cuál es la diferencia cuando se utilizan variables ficticias? Los ceros y unos se utilizarán de todos modos para calcular las distancias en el análisis cluster. En pocas palabras, ¿por qué los 0 y los 1 no tienen este mismo problema? ¿Alguna referencia al respecto? Gracias

5voto

Amadiere Puntos 5606

Si transforma el atributo de categoría en un vector 0-1, en realidad estará midiendo la distancia como "igual = 0, diferente = 1", sin valores intermedios. En realidad no gana mucho, pero al menos es menos engañoso. Le recomiendo encarecidamente que controle sus resultados y algoritmos con respecto a esto, ya que, por ejemplo, k-means también producirá "medias" que no son sensatas para atributos binarios.

Perjudica menos, porque cualquier dos categorías tienen la misma diferencia. Digamos que tienes tres categorías, "rojo", "verde", "azul":

category  continuous    dummy
red           0         1 0 0
green         1         0 1 0
blue          2         0 0 1

Cuando se representa mediante una variable continua, la distancia "azul-rojo" es dos veces mayor que "azul-verde". Por tanto, el algoritmo considerará que son más diferentes. Esto no ocurre con las variables ficticias, aquí la distancia es de hecho binaria. Puede conseguir el mismo efecto con una función de distancia categorial trivial

$$\text{dist}(c_1, c_2) = \begin{cases}0 & \text{if } c_1=c_2 \\ 1 & \text{otherwise}\end{cases}$$

2voto

Uri Puntos 111

Las variables binarias 0 (ausente) frente a 1 (presente) parecen engañosamente variables de escala (métricas) cuando en realidad no lo son. En el mejor de los casos, se podrían clasificar como ordinales. Lógicamente, para poder etiquetar una escala como intervalo o proporción, la escala debe tener al menos 3 niveles. En la escala dicotómica, sólo tenemos 2, por lo que nunca tenemos pistas sobre las que hablar cuánto "presente" es mayor que "ausente". Desde entonces, no se puede calcular ninguna media univariante o multivariante con atributos binarios (como ya ha dicho @Anony-Mousse).

Dado que no es adecuado calcular medias con variables binarias, tampoco lo es utilizar métodos de agrupación que se basen en los centroides de los conglomerados (como K-means o Ward). Aun así, cualquier agrupación que se base en Contando presencia o ausencia está justificada. Existe un gran número de medidas de proximidad especialmente diseñadas para datos binarios para su uso en clustering. Incluso podría utilizarse la distancia euclidiana, a menos que se calculen los centroides de los conglomerados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X