27 votos

Con datos categóricos, ¿puede haber clusters sin que las variables estén relacionadas?

Cuando se trata de explicar los análisis de conglomerados, es habitual que la gente no entienda el proceso como algo relacionado con la correlación de las variables. Una forma de hacer que la gente supere esa confusión es un gráfico como éste:

enter image description here

Esto muestra claramente la diferencia entre la cuestión de si hay clusters y la cuestión de si las variables están relacionadas. Sin embargo, esto sólo ilustra la distinción para los datos continuos. Me cuesta pensar en un análogo con datos categóricos:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Podemos ver que hay dos grupos claros: las personas que tienen tanto la propiedad A como la B, y las que no tienen ninguna. Sin embargo, si observamos las variables (por ejemplo, con una prueba de chi-cuadrado), están claramente relacionadas:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

No sé cómo construir un ejemplo con datos categóricos que sea análogo al de los datos continuos. ¿Es posible tener conglomerados en datos puramente categóricos sin que las variables estén también relacionadas? ¿Qué pasa si las variables tienen más de dos niveles, o al tener un número mayor de variables? Si la agrupación de las observaciones conlleva necesariamente relaciones entre las variables y viceversa, ¿implica eso que no vale la pena hacer la agrupación cuando sólo se tienen datos categóricos (es decir, se deben analizar las variables en su lugar)?


Actualización: Dejé muchas cosas fuera de la pregunta original porque quería centrarme en la idea de que se podía crear un ejemplo sencillo que fuera inmediatamente intuitivo incluso para alguien que no estuviera muy familiarizado con los análisis de conglomerados. Sin embargo, reconozco que gran parte de la agrupación depende de la elección de distancias y algoritmos, etc. Puede ser útil que especifique más.

Reconozco que la correlación de Pearson sólo es apropiada para los datos continuos. Para los datos categóricos, podríamos pensar en una prueba de chi-cuadrado (para una tabla de contingencia de dos vías) o en un modelo log-lineal (para tablas de contingencia de varias vías) como forma de evaluar la independencia de las variables categóricas.

Para un algoritmo, podríamos imaginar el uso de k-medoides / PAM, que puede aplicarse tanto a la situación continua como a los datos categóricos. (Nótese que, parte de la intención detrás del ejemplo continuo es que cualquier algoritmo de agrupación razonable debería ser capaz de detectar esos clusters, y si no, debería ser posible construir un ejemplo más extremo).

En cuanto a la concepción de la distancia, he asumido la euclidiana para el ejemplo continuo, porque sería la más básica para un espectador ingenuo. Supongo que la distancia análoga para los datos categóricos (en el sentido de que sería la más inmediatamente intuitiva) sería la coincidencia simple. Sin embargo, estoy abierto a la discusión de otras distancias si eso lleva a una solución o simplemente a una discusión interesante.

2 votos

Me pregunto si tenemos algo parecido a los clusters en los datos categóricos en absoluto . No es que la varianza entre clusters sea mayor que dentro de los clusters, o que se pueda hablar de una diferencia de densidad entre clusters. Así que si la coincidencia del clostest son conjuntos de elementos frecuentes, entonces las variables deben estar relacionadas para que se formen clusters.

0 votos

@Anony-Mousse, eso es interesante. ¿Por qué no desarrollar eso en una respuesta? Por cierto, puedo imaginar la existencia de clusters (por ejemplo, en variables continuas latentes que dan lugar a diferentes probabilidades para varios niveles de variables nominales), pero sospecho que no es eso lo que querías decir.

0 votos

Puede transformar una distribución categórica en un vector cuyos componentes son las frecuencias normalizadas. Entonces se puede aplicar la métrica euclidiana. Sin embargo, no es la única opción: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf y es.m.wikipedia.org/wiki/Espacio_vectorial_normado

16voto

Uri Puntos 111

Consideremos el caso de cluster claro con variables de escala no correlacionadas, como la imagen superior derecha de la pregunta. Y clasifique sus datos.

enter image description here

Subdividimos el rango de la escala de las dos variables X e Y en 3 intervalos que ahora tratamos como etiquetas categóricas. Además, las declararemos nominales, no ordinales, porque la pregunta formulada se refiere implícita y principalmente a datos cualitativos. El tamaño de los puntos es la frecuencia en una celda de la tabla de frecuencias; todos los casos en la misma celda se consideran idénticos.

Intuitivamente y de forma más general, los "clusters" se definen como grupos de puntos de datos separados por regiones dispersas en el "espacio" de datos. Al principio fue con los datos de escala y sigue siendo la misma impresión en la tabulación cruzada de los datos categorizados. X e Y ahora son categóricos, pero siguen pareciendo no correlacionados: la asociación chi-cuadrado está muy cerca de cero. Y los clusters están ahí.

Pero recuerda que estamos tratando con categorías nominales cuyo orden en la tabla es arbitrario. Podemos reordenar filas y/o columnas enteras como queramos, sin que ello afecte al valor de chi-cuadrado observado. Hacer la reordenación...

enter image description here

...para encontrarse con que los clusters desaparecen. Las cuatro células, a1, a3, c1 y c3, podrían unirse en un solo clúster. Así que no, realmente no tienen ningún clúster en los datos categóricos.

Los casos de las celdas a1 y c3 (o también de a3 y c1) son completamente disímiles: no comparten los mismos atributos. Para inducir clusters en nuestros datos - a1 y c3 para formar los clusters - tenemos que vaciar, en gran medida, las celdas de confusión a3 y c1, eliminando estos casos del conjunto de datos.

enter image description here

Ahora los clusters existen. Pero al mismo tiempo hemos perdido la descorrelación. El estructura diagonal que aparece en la tabla indica que la estadística chi-cuadrado se alejó de cero.

Lástima. Intentemos preservar la descorrelación y las agrupaciones más o menos claras al mismo tiempo. Podemos decidir vaciar suficientemente sólo la celda a3, por ejemplo, y entonces considerar a1+c1 como un cluster que se opone al cluster c3:

enter image description here

Esa operación no alejó el Chi-cuadrado de cero...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

...pero la situación con los clusters es confusa. El clúster a1+c1 contiene casos que son en parte idénticos y en parte semidistintos. Que un clúster sea relativamente poco homogéneo no es en sí mismo un impedimento para una estructura de clústeres clara en un conjunto de datos. Sin embargo, el problema con nuestros datos categóricos es que el clúster a1+c1 no es en absoluto mejor que el grupo c1+c3, su análogo simétrico. Esto significa que la solución del clúster es inestable - dependerá del orden de los casos en el conjunto de datos. Una solución inestable, aunque esté relativamente "agrupada", es una mala solución, poco fiable.

La única forma de superar el problema y que la solución sea clara y estable será desvincular la celda c3 de la celda c1 moviendo sus datos por debajo a la celda b3 (o a la b2).

enter image description here

Así que tenemos claros los clusters a1+c1 vs b3. Pero mira, aquí de nuevo aparece el patrón diagonal - y el chi-cuadrado de la tabla se sitúa muy por encima de cero.

Conclusión: . Es imposible tener simultáneamente dos variables nominales no asociadas por chi-cuadrado y buenos clusters de los casos de datos. Los clusters claros y estables implican una asociación de variables inducida.

También está claro que si la asociación está presente -es decir, si existe un patrón diagonal o se puede conseguir mediante una reordenación-, entonces deben existir clusters. Esto se debe a que la naturaleza de los datos categóricos ("todo o nada") no permite medias tintas ni condiciones límite, por lo que una imagen como la de abajo a la izquierda en la pregunta de la OP no puede surgir con datos categóricos y nominales.

Supongo que a medida que tengamos más y más variables nominales (en lugar de sólo dos) que sean bivariado chi-cuadrado no relacionado, nos acercamos a la posibilidad de tener clusters. Pero cero chi-cuadrado multivariante, espero que todavía será incompatible con los clusters. Eso todavía tiene que ser demostrado (no por mí o no esta vez).


Por último, un comentario sobre la respuesta de @Bey (alias user75138) que apoyé en parte. La he comentado con mi acuerdo en que uno tiene que decidir primero la métrica de distancia y la medida de asociación antes de poder plantear la pregunta "¿es la asociación variable independiente de los clusters de casos?". Esto se debe a que no existe una medida de asociación universal, ni una estadística definición de agrupaciones. Además, debe decidir la técnica de agrupación. Varios métodos de clustering definen de forma diferente lo que son "clusters" que buscan. Por lo tanto, toda la afirmación puede ser cierta.

Dicho esto, el punto débil de este dictamen es que es demasiado amplio. Habría que intentar mostrar concretamente si una elección de métrica de distancia / medida de asociación / método de agrupación abre un espacio para conciliar la no correlación con la agrupación, para los datos nominales, y dónde. Tendría que tener en cuenta, en particular, que no todos los numerosos coeficientes de proximidad para los datos binarios tienen sentido con los datos nominales, ya que para los datos nominales, "ambos casos carecen de este atributo" nunca puede ser el motivo de su similitud.


Actualización informando de los hallazgos de mis simulaciones.

Se generaron aleatoriamente datos nominales de 2 o 3 variables, con un número de categorías en una variable que variaba de 3 a 5, y un tamaño total de la muestra que variaba de 300 a 600. La asociación chi-cuadrado bivariada fue muy baja en todos los conjuntos de datos generados (la V de Cramer casi nunca superó el $.1$ ). Además, para los datos de 3 variables, la asociación chi-cuadrado de 3 vías (modelo multinomial de efectos principales), Pearson y Log-likelihood, fue baja y nunca significativa.

Se utilizaron dos métodos de análisis de conglomerados para agrupar los casos en cada uno de los conjuntos de datos generados: la agrupación jerárquica ( completa método, Dados medida de similitud), y Dos pasos clustering (basado en la distancia log-likelihood). A continuación, se verificó un rango de soluciones de clúster (que varía según el número de clústeres en una solución) de cada análisis mediante unos criterios de agrupación interna (estadística de la silueta, punto-biserial $r$ , AIC y BIC) en busca de una solución relativamente "buena", que indicara la presencia de clusters claros. A continuación, se comprobó la estabilidad de la solución deseada mediante la permutación del orden de los casos en el conjunto de datos y la repetición de la agrupación.

Los resultados apoyan en general razonamiento mostrado arriba dentro de la respuesta. Nunca hubo muy grupos claros (como podría ocurrir si la asociación chi-cuadrado es fuerte). Además, los resultados de los diferentes criterios de agrupación a menudo se contradicen entre sí (lo que no es muy probable cuando los clusters son realmente claros).

A veces, el clustering jerárquico ofrecerá una solución de k-clusters que es algo buena, como se observa a través de un gráfico de criterio de clustering; sin embargo, la prueba de estabilidad no mostrará que es estable. Por ejemplo, esta solución de 3 variables 4x4x3 datos

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

cuando se agrupan mediante el método hieárquico de enlace completo, la similitud de Dice, parecen dividirse -de forma bastante razonable- en 9 grupos, en este caso de acuerdo entre los tres jueces de validez interna:

enter image description here

Pero la solución no es estable, como se desprende de la dispersión no completa de la matriz de confusión de la solución original frente a la solución permutada (reordenada por casos):

enter image description here

Si la solución hubiera sido estable (como probablemente lo sería si tuviéramos datos continuos), habríamos elegido la solución de 9 clusters como la más persuasiva.

La agrupación basada en la distancia de logaritmo-verosimilitud (a diferencia de la similitud de Dice) puede dar soluciones estables y "no malas" (internamente bastante válidas). Pero eso es porque la distancia, al menos tal y como es en el cluster TwoStep de SPSS, fomenta y favorece los clusters de alta densidad y descuida los de baja densidad. No exige que los clusters con muy baja frecuencia en su interior sean densos (esa parece ser la "política" del análisis de clusters de TwoStep, que fue diseñado especialmente para datos grandes y para dar pocos clusters; así que los clusters pequeños son vistos como si fueran atípicos). Por ejemplo, estos datos de 2 variables

enter image description here

serían combinados por TwoStep en 5 clusters como se muestra, de forma estable, y la solución de 5 clusters no es del todo mala según algunos criterios de agrupación. Porque los cuatro clusters poblados son muy densos en su interior (en realidad, todos los casos son idénticos), y sólo uno, el quinto cluster, que incluye pocos casos, es extremadamente entropiado. Así que la solución aparente es de 12 clusters, no de 5, pero 12 es el número total de celdas de la tabla de frecuencias, que como "solución de clusters" es trivial y sin interés.

1 votos

+1, esto es lo que sospechaba. El par no asociada vs no asociada multivariada es un punto interesante. Considerando esta cuestión de forma más amplia, ¿implica esto que realmente no tiene sentido intentar agrupar datos puramente nominales? Es decir, ¿deberíamos analizar siempre las variables si no tenemos datos continuos?

1 votos

@gung, ¿no conoces la máxima de que la correlación entre variables es la otra cara de la moneda de casos". polarización ("diagolness")? Esto es cierto, como máxima, también para los datos continuos. Pero para los continuos, la polarización puede no implicar clusters. Para los categóricos, parece que lo implica. Debido a la naturaleza discreta. Así que probablemente sí, si las variables categóricas se correlacionan, hay clusters que encontrar. Pero hay que hacer clustering para obtener los clusters de la mejor manera. Esa es mi opinión tentativa para su gran pregunta.

0 votos

No estoy familiarizado con eso. Tal vez pregunte por ello más tarde. Esta es una buena información para masticar por ahora, creo.

3voto

sergiol Puntos 129

Como seguro que sabes, la correlación es una medida de la relación lineal entre dos variables, no de lo cerca que están los puntos entre sí. Esto explica las cuatro cifras superiores.

Por supuesto, también se pueden crear gráficos similares para datos discretos de valor real.

El problema de las distribuciones más abstractas, como $X \in \{A,B,C,D\}$ es que, a diferencia de las variables que toman valores en $\mathbb{R}$ no podemos suponer que la imagen de una variable aleatoria categórica forme una espacio métrico . Lo obtenemos automáticamente cuando $X \subset \mathbb{R}$ pero no así cuando tenemos $X$ tomando valores en algún conjunto arbitrario.

Habría que definir una métrica para el espacio categórico antes de poder hablar realmente de agrupación en el sentido geométrico.

1 votos

Yo apoyaría esta respuesta y la reformularía, si tanto @gung como Bey lo permiten, en términos intuitivos. Los datos agrupados se definen por "pequeñas distancias en el clúster pero largas distancias entre los clústeres". En sus imágenes, el OP seleccionó, implícitamente, euclidiano distancia para ilustrar esta idea de agrupación. También seleccionó la noción de correlación de Pearson, o algo parecido, para ilustrar la idea de asociación entre variables. Se trata de dos elecciones particulares/arbitrarias entre muchas alternativas.

1 votos

(cont.) Podría incluso imaginar que se podría elegir tal medida de distancia y tal medida de asociación donde la concepción de "agrupación de casos" y la concepción de "asociaciones variables" no son ortogonales. Y ahora, para los datos categóricos. Antes de uno puede comprobar y mostrar si las dos concepciones pueden ser independientes o están relacionadas debe seleccionar una medida de distancia específica para puntos de datos categóricos y una medida de asociación específica para variables categóricas. Hay muchas alternativas para seleccionar. Y la respuesta dependerá.

0 votos

@ttnphns (+1) Me gusta cómo has enmarcado las dos opciones principales: métricas de distancia y de asociación. No estoy seguro de lo que mi explicación no era intuitivo sin embargo... no se puede definir clusters sin una noción de distancia.

3voto

nwinkler Puntos 125

Considere la Distancia Hamming -- la distancia de Hamming entre dos cadenas de igual longitud es el número de posiciones en las que los símbolos correspondientes son diferentes. A partir de esta definición, parece obvio que podemos producir datos para los que tenemos clusters basados en la distancia de Hamming, pero sin correlaciones entre las variables.

A continuación, un ejemplo utilizando Mathematica.

Cree algunos datos categóricos (secuencias de 3 símbolos de longitud de muestreo aleatorio uniforme de 4 caracteres):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Utilice gráficos de mosaico para la relación entre las variables (probabilidades condicionales para pares de valores de diferentes columnas):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

enter image description here

Podemos ver que no hay correlación.

Encuentra clusters:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Si sustituimos cada carácter por un número entero podemos ver en este gráfico cómo se forman los clusters con la distancia de Hamming:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

enter image description here

Más agrupaciones

Hagamos un gráfico conectando las palabras para las que la distancia Hamming es 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

enter image description here

Ahora busquemos las agrupaciones comunitarias:

CommunityGraphPlot[nngr]

enter image description here

Compara los grupos de gráficos con los encontrados con FindClusters (que se vio obligado a encontrar 3). Podemos ver que "bac" es muy central, y "aad" puede pertenecer al cluster verde, que corresponde al cluster 1 en el gráfico 3D.

Datos del gráfico

Aquí está la lista de bordes de nngr :

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

0 votos

¡Bienvenido al sitio! Sólo un par de observaciones: ¿En qué idioma está el código? (que no está anotado, además). ¿Cómo se define relationship between the variables (correlation) ?

0 votos

Esto es interesante. Desafortunadamente, no conozco Mathematica (y estoy menos familiarizado con la distancia de edición), así que necesito jugar con esto para estar seguro de que lo entiendo. Todavía no he tenido la oportunidad, pero pienso hacerlo pronto.

0 votos

@gung Estaba pensando en hacerlo en R pero pensé que la parte crucial es el trazado en 3D y rotarlo en el ángulo o ángulos correctos para tener una visión de la formación de los cúmulos. Por cierto, ¡buena pregunta!

3voto

DJohnson Puntos 1347

El punto de @ttnphns sobre par vs multivariante la asociación está bien tomada. En relación con esto, está el viejo dicho sobre la importancia de demostrar la asociación con métricas simples antes de saltar a un marco multivariante. En otras palabras, si las medidas sencillas de asociación por pares no muestran ninguna relación, es cada vez más improbable que las relaciones multivariantes tampoco muestren nada. Digo "cada vez más improbable" porque soy reacio a utilizar la palabra "imposible". Además, soy agnóstico en cuanto a la métrica empleada, ya sea una correlación monótona de Spearman para datos ordinales, el método de Somer D , Kendall's Tau La correlación policórica, la MIC de Reshef, la correlación de distancia de Szelkey, lo que sea. La elección de la métrica no es importante en esta discusión.

El trabajo original para encontrar la estructura latente en la información categórica se remonta a principios de los años 50 y a Paul Lazersfeld, sociólogo de Columbia. Esencialmente, inventó una clase de modelos de variables latentes que ha experimentado un amplio desarrollo y modificación desde entonces. En primer lugar, con los trabajos de los años 60 de James Coleman, economista político de la Universidad de Columbia, sobre las propensiones latentes de los votantes a las elecciones, seguidos de las contribuciones del difunto Clifford Clogg, también sociólogo, cuyo software MELISSA fue el primer programa gratuito de clase latente disponible públicamente.

En los años 80, los modelos de clases latentes se ampliaron de la información puramente categórica a los modelos de mezcla finita con el desarrollo de herramientas como Latent Gold de Statistical Innovations. Además, Bill Dillon, un científico de marketing, desarrolló un programa de Gauss para ajustar modelos de mezclas finitas discriminantes latentes. La literatura sobre este enfoque de ajuste de mezclas de información categórica y continua es en realidad bastante extensa. Sólo que no es tan conocida fuera de los campos en los que se ha aplicado más ampliamente, por ejemplo, la ciencia del marketing, donde estos modelos se utilizan para la segmentación y la agrupación de consumidores.

Sin embargo, estos enfoques de modelos de mezcla finita para la agrupación latente y el análisis de tablas de contingencia se consideran de la vieja escuela en el mundo actual de datos masivos. El estado del arte en la búsqueda de asociaciones entre un enorme conjunto de tablas de contingencia son las descomposiciones disponibles al desplegar modelos tensoriales como los desarrollados por David Dunson y otros bayesianos en Duke. Aquí está el resumen de uno de sus artículos, así como un enlace:

El análisis de tablas de contingencia se basa habitualmente en modelos log lineales, con El análisis de la estructura latente es una alternativa habitual. Los modelos de estructura latente de estructura latente conducen a una factorización tensorial de bajo rango de la tensor de bajo rango de la función de masa de probabilidad para datos categóricos multivariantes, mientras que los modelos log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log log Se sabe poco sobre la relación entre estas nociones de reducción de la dimensionalidad en los dos paradigmas. Derivamos varios resultados que relacionan el soporte de un modelo log-lineal con el rango rango del tensor de probabilidad asociado. Motivados por estos Motivados por estos resultados, proponemos una nueva clase de descomposiciones tensoriales tensor, que une las descomposiciones PARAFAC y Tucker de Tucker, proporcionando un marco más flexible para caracterizar parsimoniosamente caracterizar parsimoniosamente los datos categóricos multivariantes. Tomando un enfoque bayesiano de la inferencia, ilustramos las ventajas de las nuevas descomposiciones en simulaciones y en una aplicación a datos de datos de discapacidades funcionales.

https://arxiv.org/pdf/1404.0396.pdf

1 votos

Es una información interesante. No tengo tan claro cómo se relaciona con la pregunta.

0 votos

Gung Dado el amplio debate y las cuestiones fundamentales planteadas sobre si los grupos de datos categóricos "siquiera existen", su falta de claridad en cuanto a la relevancia de mi contribución es desconcertante. En mi opinión, la información aportada ilumina áreas de la metodología y el descubrimiento de conocimientos que antes se ignoraban. Permítame también señalar mi observación inicial -dirigida explícitamente a la pregunta de la OP- respecto a que el salto de la asociación por pares a la multivariante es muy improbable en ausencia de asociación en el nivel más simple.

0 votos

No quería ofenderte, @DJohnson. Estoy (algo) familiarizado con los modelos latentes para agrupar datos categóricos (es decir, el análisis de clases latentes). Hice alusión a ello en mi comentario arriba. No estaba tan familiarizado con la historia, los investigadores y el software. Es interesante. No veo cómo responde a la pregunta de si puede haber conglomerados detectables en datos nominales donde las variables no muestran ninguna asociación. Si eso es lo que quieres decir, un ejemplo sería útil. ¿Puede proporcionar uno?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X