Supongamos que tenemos una muy simple en línea k-means, donde cada uno de los nuevos puntos de datos está asignado a su centro más cercano (la media es actualizado de forma incremental). Cada centro (clúster) es marcado con el más común de la etiqueta de datos de los puntos asignados a ese grupo. En esta configuración especial: es posible calcular una especie de "probabilidad posterior"? I. e., puede la probabilidad posterior de una clase de etiqueta $y$ dado que los datos de punto de $x$ ($P(y|x)$) acaba de ser $1/\text{distance}(x, m_y)$ donde $m_y$ es un centro etiquetados con $y$ que es el más cercano a $x$?
Respuestas
¿Demasiados anuncios?Ya que se puede ver de k-medios como una especie de empobrecidos de la Mezcla de Normales (específicamente con 0 la varianza), estaría tentado a utilizar la función de densidad de la distribución Normal si usted necesita un probabilística de la métrica. Si usted está dispuesto a asumir varianzas iguales en todos los clústeres puede ignorar la varianza de la función de densidad, y normalizar por la distancia a través de todos los grupos (también se podría incluir una probabilidad anterior del clúster como la fracción de puntos asignados a él también).
No es bastante y no es realmente teóricamente justificado, pero puede ser suficiente.
Como se señaló en los comentarios, k-means no corresponde a un modelo probabilístico, como PCA. La conexión entre el aprendizaje de máquina y estadísticas (Naive-Bayes v. regresión logística) es uno de mis temas favoritos, pero que no es ni aquí ni allí... Como se sugiere, se podría emplear un verdadero modelo de mezcla de cuantificar que la probabilidad posterior de una nueva observación dados los datos observados. Esto le puede dar algunas buenas herramientas como la posterior predicción de cheques para entender su modelo de datos y más completo. Recomiendo la lectura de Andrew Gelman para más en ese enfoque.
Si están inmersos en el k-medios para la práctica de razones (es decir, usted ya implementado o que tu jefe sabe k-means es el camino a seguir), entonces usted todavía puede utilizar algunos trucos para conseguir un no-paramétrico de la posterior estimación de la densidad de las nuevas observaciones dan sus datos (y estimado de los centros de cluster). Es decir, usted podría utilizar k-vecinos más cercanos. En este caso, sería la formación algoritmo del vecino más cercano con la clase de las etiquetas asignadas por los k-means. Por lo tanto, la probabilidad posterior de un nuevo dato de la pertenencia a la clase $i$ es la proporción de k-vecinos pertenecientes a la clase $i$, es decir,$Pr(X_{new}=i|X_{obs})=\frac{k_i}{k}$.
La razón por la que esto funciona es que el vecino más cercano es una forma de estimación de densidad de kernel. Por desgracia, el clasificador del vecino más cercano no es un verdadero kernel ya que no se integra a 1 como un núcleo verdadero (o de distribución de probabilidad), pero es terriblemente cerca. Esto es impresionante porque un k-vecino más cercano clasificador puede ser implementado a ser bastante rápida con inteligente estructuras de datos, dependiendo del tipo de datos que tiene. Esta ponencia describe los entresijos del enfoque que he descrito anteriormente para una mezcla de Gaussianas, que es esencialmente lo que k-means está tratando de conseguir en.