O documento discute a análise de clusters, um método estatístico multivariado que agrupa objetos de acordo com suas similaridades. O método possui etapas como definição de objetivos, seleção e processamento de dados, transformação, interpretação e validação dos resultados. A análise de clusters é útil para redução de dados e geração de hipóteses sobre padrões nos dados.
Café da manhã ciclo de gestão de serviços públicos
Análise de Clusters - White Paper ELOGroup
1. 1
Objetivos e análise Seleção Processamento Transformação Interpretação Validação
White Papers Elo Group
Análise de Clusters
O método multivariado proporciona a análise
simultânea de um ou mais objetos. Há uma variedade
destes métodos que se diferenciam apenas na sua
finalidade. A Análise de Clusters é um dos métodos
multivariados baseado nas características dos objetos,
com a tentativa de maximizar tanto a homogeneidade
quanto a heterogeneidade através da formação dos
clusters, tendo como objetivo a similaridade entre os
grupos.
Temas relacionados:
Método multivariado
Análise de Clusters
Processo decisório
Conceitos Centrais
Método multivariado: análise exploratória de
dados, prestando-se a gerar hipóteses, e não
tecer confirmações a respeito dos mesmos,
nos quais se tem uma afirmação a respeito da
amostra em estudo.
Análise de clusters: é o processo de agrupar
um conjunto de objetos em grupos de objetos
similares.
Processo decisório: é o meio que a
organização utiliza para alcançar os objetivos.
Etapas do Processo Decisório
Sugestões de Aprofundamento
LIGO, A.K.; MANFREDINI, A. C.;
et. al. Clusters Empresariais no
Brasil (2007).
ALBUQUERQUE, Mácio A.
Estabilidade em análise de
agrupamento. 2005.
2. 2
Para se tomar uma decisão é necessário a
avaliação de vários fatores. A análise destes é
realizada levando em consideração as
informações relevantes ao entendimento do
fenômeno em questão. Pois, uma decisão deve
ser controlada e mensurada. Estes dois atributos
estão auxiliados pela avaliação estatística das
informações.
Os métodos estatísticos, aliados à tecnologia,
cada vez mais estão sendo utilizados de forma
diferenciada pelas empresas. Dependendo do conhecimento que se pretende gerar, a
análise multivariada é a mais recomendada, pois utilizam as variáveis na interpretação
teórica do conjunto de dados obtidos.
Entre os métodos multivariados mais recorrentes, destaca-se a Análise de Clusters, que será
objeto de estudo nesse White Paper Elo Group.
A análise de clusters é uma tecnologia usada para combinar observações dentro dos grupos
homogêneos ou similares, ou seja, classifica-se de acordo com as relações da amostra
formando grupos de objetos similares, como indivíduos, empresas e cidades. Os
agrupamentos ou clusters devem ter uma elevada homogeneidade com os objetos e
também uma heterogeneidade entre os grupos.
Com os objetos
Entre os grupos
Introdução
Conceitos Centrais da Análise de Clusters
“A análise multivariada é um vasto
campo, no qual até os estatísticos
experientes movem-se com cautela,
devido esta ser uma área recente da
ciência, pois já se descobriu muito
sobre esta técnica estatística, mas
muito ainda está para se descobrir.”
MAGNUSSON
3. 3
A aplicação desta análise está inserida em cenários que tem a finalidade de estudar grupos
similares. A similaridade entre objetos é uma forma de afinidade para serem agrupados. As
funções da Análise de Clusters são:
redução dos dados: reduz a informação de uma população total ou amostra para
grupos específicos;
geração de hipóteses: quando um pesquisador desenvolve hipóteses para afetar a
natureza dos dados ou para examinar os dados determinados.
Porém, precauções devem ser tomadas:
a análise é descritiva, não teórica e não inferencial;
a análise de clusters sempre criará grupos;
a análise depende de variáveis usada como base para mensurar a similaridade, não
possuindo um visão generalizada.
Para organizar as regras de decisão da Análise de Clusters, as etapas do framework do
processo decisório são: definição dos objetivos e análise de dados, seleção de dados,
processamento dos dados, transformação dos dados, interpretação dos dados e validação.
As etapas do processo decisório da Análise de Clusters são dependentes, formando um
procedimento metodológico. Pode ocorrer o retorno a alguma etapa para corrigir ou
somente com a finalidade de aprimorar.
1. Definição de objetivos e análise de dados
Essa etapa refere-se à definição dos objetivos, análise de dados e formulação de problemas.
É considerada a etapa mais importante porque é a escolha das variáveis na qual o processo
de aglomeração se baseará. O conjunto de variáveis deve descrever a semelhança entre
objetos, pois é onde se fixa o critério de homogeneidade.
1.1. Definição dos objetivos:
Definir qual a intenção de realizar a análise de clusters, tendo como referência que a
o objetivo desta análise é encontrar e separar objetos em grupos similares
Somente variáveis que especificam os objetivos da análise de clusters são incluídas;
1.2. Análise de dados:
A análise de dados apresenta as seguintes características:
descrição: identificar os grupos naturais com os dados que pode ser feito por
Desenvolvimento do Processo Decisório
4. 4
exploração de padrão, criando uma sistemática (empiricamente classificação de
objetos) ou no padrão de confirmação (teoricamente baseado na classificação);
simplificação de dados: a capacidade de analisar grupos de similares informações em
vez da observação de todos os indivíduos;
identificação de relações: a simplificada estrutura da análise de clusters não revelam
relacionamentos de outra maneira.
1.3. Formulação de problemas:
Pode ser identificado algum problema caso ocorra:
a inclusão de alguma variável sem importância o resultado da análise pode ter um
erro.
2. Seleção de dados
Esta etapa visa a identificação das características das informações, resultando em um
subconjunto de dados com atributos relevantes. É importante que esta etapa esteja
alinhada com os objetivos do projeto para que estes sejam alcançados.
3. Processamento dos dados
O processamento de dados tem como objetivo assegurar a qualidade dos dados
selecionados. Esta etapa consiste em processar dados, gerando resultado com outros dados.
Este resultado auxiliará no processo de tomada de decisão.
O processamento inicia com uma revisão da estrutura de dados e a definição de medidas de
qualidade.
Alguns problemas são encontrados e devem ser tratados, como:
Eliminação de dados duplicados ou corrompidos que devem ser removidos;
Tratamento de outliers - são valores significantemente fora do esperado para uma
variável;
Valores faltantes - valores que não estão presentes no conjunto selecionado e
valores inválidos que foram eliminados durante a detecção de outliers.
4. Transformação de dados
O objetivo desta etapa é tornar os dados úteis pela conversão de dados brutos em uma
forma padrão de uso. A transformação deve preservar as informações dos dados brutos nas
amostras, além de auxiliar na redução de tempo de processamento. É nesta etapa que
surgem a técnicas de clusterização, as quais são: hierárquicas aglomerativas, divisórias e por
densidade.
A primeira técnica produzem agrupamentos hierárquicos, iniciando com clusters unitários,
passando, repetidamente, por aglutinações dois a dois até chegar no número de clusters
desejados. A hierárquica divisória tem como base o agrupamento hierárquico com um
cluster único, contendo todo o conjunto de objetos e repetidamente dividindo os clusters
5. 5
em duas partes seguindo algum critério de similaridade até chegar no número de clusters
desejados. Já por densidade o número de clusters é fornecido por um algoritmo, sendo ideal
adequado para clusters de formato arbitrário.
5. Interpretação dos dados
A interpretação tem como objetivo a procura do sentido mais amplo das respostas, o que é
feito mediante sua ligação a outros conhecimentos anteriormente obtidos. A interpretação
consta de uma análise quantitativa e uma de conteúdo para os fatores qualitativos.
6. Validação
A validação é amparada pela medição de qualidade do resultado, caracterizada pela
compreensão e interesse. A compreensão relaciona-se com de interpretação. E o interesse
combina fatores que estimam o conhecimento inesperado que existe. A validação descreve
as características de cada cluster para explicar a diferença entre as dimensões.
Para uma validação positiva, o resultado da escolha dos dados deverá apresentar o
cumprimento dos objetivos propostos.
Objeivo 1
Objetivo 2
Objetivo 3
Perfil + objetivo
alcançado
Definição de
objetivos
Análise de
dados
Seleção de
dados
Processamento e
transformação dos
dados
Interpretação de
dados Validação
6. 6
O white paper tem como objetivo introduzir o assunto, fornecendo noções gerais sobre o
tema em questão.
A análise de cluster é uma das técnicas mais utilizadas no processo de dados para
descoberta de agrupamentos e identificação de importantes distribuições e padrões para
entendimento dos dados. Desta forma, é possível formar grandes bancos de dados com
informações relevantes, agrupando-as por dados de similaridade, e assim ter verdadeiro
conhecimento e definição de ações e estratégias. A análise permite uma visão estratégica
dos custos, do posicionamento no mercado, dos concorrentes, do público-alvo, entre outros.
Assim sendo, o importante da análise de cluster é a interação entre as etapas, pois se uma
seleciona dados não apropriados, resultará em uma pesquisa ineficiente.
Considerações Finais
7. 7
Principais Referências
BASSAB, Wilton O.; MIAZAKI, Edina S. ; ANDRADE, Dalton F. Introdução à análise de
agrupamento. 9° Simpósio Nacional de Probabilidade e Estatística. São Paulo, 1990.
DONI, Marcelo V. Análise de cluster: métodos hierárquicos e de particionamento.
São Paulo, 2004.
EVERITT, B.; LANDAU, S.; LEESE, M.; STAHL, D. (2009). Cluster Analysis. Wiley Series
in Probability and Statistics. John Wiley & Sons. 5th Edition.
HAIR, J.; BLACK, W.; BABIN, B.; ANDERSON, R. (2010). Multivariate Data
Analysis. Pearson Prentice Hall, 7th Edition. SHARMA, S. (1996). Applied Multivariate
Techniques. John Wiley & Sons. 1st Edition.
KARRER, Daniel. Cluster Analysis Method. Rio de Janeiro, 2012.
VICINI, Lorena. Análise multivariada da teoria à prática. Santa Maria : UFSM, CCNE,
2005. 215 p. : il.
Referências Complementares
ALBUQUERQUE, Mácio A. Estabilidade em análise de agrupamento. Recife, 2005. 62
f. : il.
LIGO, Antônio C.; MANFREDINI, A. C.; et. al. Clusters Empresariais no Brasil. 2007.
Sites
http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-
%20LIVRO%20FINAL%201.pdf
http://www.pgbiom.ufrpe.br/dissertacoes/2005/d2005-01.pdf
http://meusite.mackenzie.com.br/rogerio/tgi/2004Cluster.PDF
http://numa.sc.usp.br/saate/index.php/saate
Sugestões de Aprofundamento