Para entender melhor o processo descrito no post anteior, pode-se imaginar um conjunto hipotético contendo 5 elementos {A, B, C, D, E}. Deseja-se agrupar estes elementos de acordo com o número de vezes em que compraram em determinada loja no último ano. O número de compras é representado pelo conjunto { 0, 2, 4, 5, 8}. Um possível cenário de execução é demonstrado a partir de agora.
Passo 1: É calculada a distância entre todos os objetos (usei a medida Euclideana neste exemplo). Este cálculo forma a matriz de distância, apresentada a seguir:
Passo 2: Os dois objetos mais similares são agrupados e o valor do centróide do grupo é calculado (usaremos a média aritmética). Os elementos C e D são os mais similares, já que d(4,5) = 1 e o novo centróide é 4.5. Assim, o novo agrupamento é formado e o conjunto inicial é reduzido em um elemento {A, B, CD, E}.
Passo 3: São calculadas as distâncias de A, B e E em relação a novo elemento (CD). Não é necessário recalcular as demais distâncias já que isto foi feito no primeiro passo. A seguir, tem-se a nova matriz de distância, onde a linha grifada mostra que apenas três distâncias foram calculadas, as demais são inalteradas:
Passo 4: Os dois objetos mais semelhantes, A e B, são agrupados e o valor do centróide é recalculado. O conjunto é novamente reduzido em uma unidade.
Passo 5: As novas distâncias são calculadas.
Passo 6: Como ocorreu um empate, já que d(4.5, 1) = d(4.5, 8), a escolha dos elementos a serem unidos dependerá do método de formação escolhido, supomos ser CD e E os escolhidos. O conjunto que inicialmente possuía 5 agrupamentos, possui agora apenas dois, um formado pelos elementos {C, D, E} e outro formado pelos elementos {A, B). No próximo passo, o conjunto de elementos estará todo em um único agrupamento.
A Figura a seguir mostra o fluxo de execução para o exemplo apresentado. O quadrado destacado representa cada novo grupo formado. As linhas contínuas representam as medidas de distância calculadas no primeiro passo. As linhas tracejadas representam as medidas calculadas no segundo passo. As medidas de distância dos demais passos não foram representadas para não “poluir” a imagem. Observando-se estas linhas, é possível ver claramente que o número de medidas de distância diminui significativamente a cada passo do processo.