No hay realmente una respuesta. Está entre el 1 y el N.
Sin embargo, se puede pensar en ello desde la perspectiva de los beneficios.
Por ejemplo, en marketing se utiliza la segmentación, que es muy parecida a la agrupación.
Un mensaje (un anuncio o una carta, por ejemplo) adaptado a cada persona tendrá el mayor índice de respuesta. Un mensaje genérico adaptado a la media tendrá el índice de respuesta más bajo. Un mensaje adaptado a tres segmentos, por ejemplo, estará en un punto intermedio. Este es el lado de los ingresos.
Un mensaje adaptado a cada individuo tendrá el mayor coste. Un mensaje genérico adaptado a la media tendrá el coste más bajo. Tres mensajes adaptados a tres segmentos estarán en un punto intermedio.
Digamos que pagar a un escritor para que escriba un mensaje personalizado cuesta 1000, dos cuestan 2000 y así sucesivamente.
Digamos que utilizando un mensaje, sus ingresos serán de 5000. Si segmentas a tus clientes en 2 segmentos y escribes mensajes adaptados a cada uno de ellos, tu tasa de respuesta será mayor. Digamos que los ingresos son ahora de 7500. Con tres segmentos, una tasa de respuesta ligeramente superior, y sus ingresos son de 9000. Un segmento más, y estarás en 9500.
Para maximizar el beneficio, hay que seguir segmentando hasta que el ingreso marginal de la segmentación sea igual al coste marginal de la misma. En este ejemplo, se utilizarían tres segmentos para maximizar el beneficio.
Segments Revenue Cost Profit
1 5000 1000 4000
2 7500 2000 5500
3 9000 3000 6000
4 9500 4000 5500
0 votos
Yo también me he preguntado sobre este problema, pero (desgraciadamente) aún no he encontrado ninguna respuesta convincente. Creo que no hay solución. Hay paquetes R/BioC como
hopack
(y otros) que pueden estimar el número de racimos, pero eso no responde a tu pregunta.0 votos
El
pvclust
paquete paraR
tiene funciones que dan valores p de bootstrap para los conglomerados del dendrograma, lo que le permite identificar los grupos: is.titech.ac.jp/~shimo/prog/pvclust0 votos
Un sitio útil con algunos ejemplos sobre cómo hacerlo en la práctica: towardsdatascience.com/
0 votos
Una visión general de los índices de validez interna de las agrupaciones: stats.stackexchange.com/q/21807/3277