SlideShare une entreprise Scribd logo
1  sur  87
Télécharger pour lire hors ligne
MINERAÇÃO DE DADOS UTILIZANDO MAPAS
AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A
INDÚSTRIA DE SEMICONDUTORES
INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT
PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE
COMPUTAÇÃO – MOD. ENG. DE SOFTWARE
Defesa de Dissertação 1º Semestre 2012
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
2
INTRODUÇÃO
REVISÃO BIBLIOGRÁFICA
METODOLOGIA
ESTUDO DE CASO
CONSIDERAÇÕES FINAIS
Agenda
3
INTRODUÇÃO
Motivação, justificativa e objetivo
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
4
Processo Produtivo de
Semicondutores Análise de
dados
Melhoria
do
Processo
Produtivo
Motivação
• Aplicação da Mineração de Dados (MD) em um caso
prático: Análise de dados gerados pelo processo produtivo
de uma indústria de semicondutores
• Agrupamento de Dados → Mapas de Kohonen (SOM –
Self Organizing Maps)
5
Justificativa e relevância do estudo
• Dificuldades na aplicação de redes SOM:
– Definição dos parâmetros que regulam o comportamento
– Preparação de dados e seleção de atributos
• Incorporação da Mineração de Dados ao processo de
negócio: objetivo raramente alcançado
• Falta de pesquisas aplicadas na área de Mineração
de Dados
• Fracassos na área de Mineração de Dados são
raramente documentados
6
Objetivo
• Objetivo Geral
– Uso de Mapas Auto-organizáveis (Self-organizing maps –
SOM) em aplicações de Mineração de Dados
• Objetivo Específico
– Desenvolver um processo com o qual se pretende:
• Identificar caminhos, demandas e restrições no uso da
técnica para Mineração de Dados originados no processo
de fabricação de semicondutores;
• Investigar técnicas heurísticas para a determinação dos
parâmetros que regulam o comportamento de redes
SOM e para seleção e priorização de atributos.
7
REVISÃO BIBLIOGRÁFICA
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
8
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Modelos de Processo:
DCBD, CRISP-DM, SEMMA
Banco de Dados
Preparação de
dados para MD
Dimensionalidade
de dados
Qualidade de
dados
Mineração de
Dados
Agrupamento de
dados
Mapas SOM
Parametrização de
Mapas SOM e suas
heurísticas
Medidas de
Qualidade de
Mapas SOM
Ferramentas
Geração Mapas
SOM
Estatística:
Correlação e PCA
Aplicações da MD
na Indústria
9
METODOLOGIA
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
10
Metodologia
Abordagem Metodológica
Metodologia de Pesquisa
3. Execução Processo DCBD (Estudo de Caso)
3.1 Definição dos objetivos
3.2 Seleção & Pré-processamento
3.3 Limpeza & Transformação
3.4 Mineração de Dados
3.5 Interpretação / Avaliação
2. Definição Instância do Processo DCBD
1. Revisão Bibliográfica
4. Considerações Finais
11
Definição da Instância do
Processo DCBD (Descoberta de Conhecimento em BD)
DCBD (Fayyad, 1996)
CRISP-DM (CHAPMAN, CLINTON et al., 2000)
SEMMA (SAS, 2012)
Figura 12 - Processo para execução dos experimentos
de DCBD.
12
Instância do Processo DCBD
13
• SOM Toolbox (2005) e SOMVIS (2009)
• Biblioteca Matlab de código aberto
• Universidade de Tecnologia de
Helsinki/Finlândia.
http://www.cis.hut.fi/projects/somtoolbox/
Ferramentas de geração de Mapas SOM selecionadas
• Viscovery SOMine 5.2 (2010)
• Ferramenta comercial
• Viscovery Software GmbH Viena, Áustria
http://www.viscovery.net/somine/
http://www.viscovery.net/customers
15
ESTUDO DE CASO
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
16
Objetivo do processo de DCBD
• Analisar os dados gerados pelo processo produtivo e
identificar padrões que possam revelar informações até
então desconhecidas como, por exemplo,
características dos produtos que são devolvidos pelos
clientes devido a mau funcionamento
17
Processo DCBD
18
Processo DCBD
19
Processo de Produção de Módulos de Memória
• Dados coletados:
 Compras
 Produção
 Vendas
 Devolução de Clientes
20
Visão Geral dos Sistemas de Informação da
Empresa alvo do estudo de caso
21
Sistema Origem Dados disponíveis Características Técnicas
Sistema de Controle
de Produção (SCP)
 Histórico das etapas de elaboração
do produto
 Histórico de eventos / defeitos
 Máquinas utilizadas em cada fase
 Operadores
 Lotes de fabricação
 Número de série do produto
 Quantidades produzidas
 Resultado de testes de qualidade
 33 milhões de registros (1 ano)
 SGBD: MS-SQL Server
Sistema Integrado
de Gestão (ERP)
 Dados de fornecedores (compras)
 Dados de clientes (vendas)
 Dados de produção (lotes matérias-
primas utilizadas em cada ordem de
fabricação)
 408 mil de registros (1 ano)
 SGBD: Oracle
Sistema de
Assistência Técnica
(SAT)
 Dados de devolução de clientes (por
mau funcionamento do produto)
 Análise de falhas
 Histórico de falhas
 113 mil registros (1 ano)
 SGBD: MS- Access 97
Detalhamento das informações contidas nas
bases de dados dos sistemas SCP, ERP e SAP
22
Processo DCBD
23
Consulta
SQL
Data
Mining
View
Critério de Seleção:
Ordens de Produção criadas
entre Ago e Set/2011
Tabelas dos Sistemas:
• ERP - Sistema Integrado de Gestão
• SCP - Sistema de Controle de Produção
• SAT - Sistema de Assistência Técnica
49 atributos
837.285 seriais (registros)
2.456 seriais devolvidos
333 ordens de produção
Consulta SQL desenvolvida para extrair dados
dos sistemas ERP, SCP e SAT
24
Processo DCBD
25
Limpeza & Transformação de dados
DM View
Limpeza e
Transformação
 Análise da qualidade dos dados: descarte de atributos
 Transformação e Normalização de atributos
 Geração dos arquivos no formato de cada ferramenta
 Seleção de atributos: redução da dimensionalidade
Formato Matlab
Formato Viscovery
Cubo OLAP
Geração de PCA &
Correlação
837.285 seriais
49 atributos
25 atributos
26
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimensões
49 atributos
1127 dimensões
25 atributos
391 dimensões
Sistemas
Correlação e
PCA
Análise da
Qualidade dos
Dados
Seleção de registros de Ago e Set/2011
Cubo OLAP
Padrões /
Agrupamentos
12 atributos
260 dimensões
Seleção de Atributos
Mineração de Dados
Geração
Mapas SOM
27
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimensões
49 atributos
1127 dimensões
25 atributos
391 dimensões
Sistemas
Correlação e
PCA
Análise da
Qualidade dos
Dados
Seleção de registros de Ago e Set/2011
Cubo OLAP
Padrões /
Agrupamentos
12 atributos
260 dimensões
Seleção de Atributos
Mineração de Dados
Geração
Mapas SOM
28
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas
Valor
Min/Máx
Média
Desv.
Padrão
Valores
Nulos
Atributo chave LOTLOTKEY
Número do serial do
produto
C 0 0 (0%)
Grupo 1
Atributos de
Classificação
do Produto
1 JOBPARTID Código do produto C 75 0 (0%)
2 X512MB_EQUIV
Equivalência com
produto de 512MB
N 1 0 (0%)
3 APPLICATION
Aplicação do produto
(Desktop, Laptop, ...)
C 4 0 (0%)
4 CAPACITY Capacidade C 4 0 (0%)
5 DENSITY Densidade C 3 0 (0%)
6 MONO_IC Mono IC C 5 0 (0%)
7 IC_REVISION Revisão do CI C 5 0 (0%)
8 MONO_ORG Organização do Mono C 5 0 (0%)
9 MONO_QTY Quantidade de CI C 6 0 (0%)
10 ORGANIZATION Organização do CI C 10 0 (0%)
11 PLATFORM Tipo de utilização C 3 0 (0%)
12 SUPPLIER Fornecedor C 5 0 (0%)
13 TYPE Tipo de produto C 5 0 (0%)
Total
131
dimensões
Grupo 1 de atributos
Classificação do Produto
29
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas no
vetor de
entrada
Valor
Min/Máx
Média
Desv.
Padrão
Valores
Nulos
Grupo 2
Atributos
relacionados
com à
produção
14 NJOBQTY
Quantidade produzida pela ordem
de produção
N 1 0,002 /1,000 0,561 0,267 0 (0%)
15 DIA_SEM Dia semana término da produção C 7 0 (0%)
16 TEMPO_PROD
Tempo decorrido entre o início e o
fim da produção
N 1 0,000 /1,000 0,005 0,011 0 (0%)
17 ORDER_CLASS Classificação da Ordem C 4 0 (0%)
18 TIPO_CI Classificação do CI usado C 2
41.803
(5,00%)
19 REJECT Local do rejeito C 2 0 (0%)
20 XTASHIFT Turno de produção C 4 0 (0%)
21 XTAOPERATOR Operador que testou a peça C 80 0 (0%)
22 XTALINE Linha de produção C 4
41.803
(5,00%)
23 BOM
Código da estrutura de produto
usada
C 146 0 (0%)
24 BOM_VERSION
Versão da Estrutura de Produtos
(BoM)
C 7 0 (0%)
25 DEVOLVIDA
Produto devolvido pelo cliente
(Sim/Não)
C 2 0 (0%)
Total
260
dimensões
Grupo 2 de atributos
Atributos relacionados com à produção
30
# Grupo de atributos
Dimensões
originais
Componentes
Principais
Redução de
dimensões
1 Grupo 1 131 74 -44%
2
Grupo 1 (com TEMPO_PROD, REJECT,
DEVOLVIDA)
136 76 -44%
3 Grupo 2 260 240 -8%
4 Grupo 2 (sem XTAOPERATOR e BOM) 34 25 -26%
5 Grupo 1 + Grupo 2 391 240 -39%
6
Grupo 1 + Grupo 2 (sem XTAOPERATOR
e BOM)
165 98 -41%
Redução da dimensionalidade
Análise de Componentes Principais (PCA)
31
Figura 19 – Percentual da variação acumulada em função dos números de componentes principais.
Redução da dimensionalidade
% Variação Acumulada x Componentes Principais
32
Processo DCBD
33
Planejamento dos experimentos
• Verificar o efeito da priorização e do uso de diferentes
combinações de atributos na formação de
agrupamentos
• Aplicar heurísticas para definição do número de
neurônios e verificar a sua influência nas medidas de
qualidade de mapas SOM
34
Nro.
Exp.
Grupo de Atributos
Atributos
Prioriz.?
N de
Neurônios
Distorção
Normalizada
Erro de
Quantização
Médio
Erro de
Quantização
Máximo
Tempo
de
Proc.
Resultado
1 Grupo 2
12 atributos/260 dimensões
Não 2000 0,007681 0,003939 64 9h 39min
- Mapa disperso
- Erros altos
2 Grupo 2
12 atributos/260 dimensões
Sim 2000 0,003811 0,002166 9 6h
- Indicou agrupamento
3 Grupo 2
12 atributos/260 dimensões
Não 4.565 0,006134 0,001742 63 12h 56min
- Mapa disperso
- Erros altos
4 Grupo 2
12 atributos/260 dimensões
Sim 4.565 0,002631 0,001144 4,2 11h 58min
- Indicou agrupamento com mais
intensidade
5 Grupo 2 (sem
XTAOPERATOR e BOM)
10 atributos/34 dimensões
Não 4.565 0,01522 0,001806 1,3 1h 31min
- Indicou agrupamento com mais
intensidade
- Erros mais baixos
6 Grupo 2 (sem
XTAOPERATOR e BOM)
10 atributos/34 dimensões
Não 2.000 0,02827 0,01011 33 35 min
- Indicou agrupamento com mais
intensidade
- Erros altos
7 Grupo 1 (com
TEMPO_PROD, REJECT e
DEVOLVIDA)
13 atributos/136 dimensões
Sim 4.565 0,01532 0,00008758 0,33 4h 56min
- Nenhum relacionamento entre os
atributos do Grupo 1 e os atributos
DEVOLVIDA, REJECT e
TEMPO_PROD.
8 Grupo 1 + Grupo 2 (com
XTAOPERATOR e BOM)
25 atributos/391 dimensões
Sim 4.565 0,002354 0,0009642 30 26h 19min
- Mapa disperso
- Erros altos
9 Grupo 1 + Grupo 2 (sem
XTAOPERATOR e BOM)
23 atributos/165 dimensões
Sim 4.565 0,0219 0,003582 16 11h 14min
- Indicou agrupamento com menor
intensidade
- Erros mais baixos
Ferramenta Viscovery SOMine
Resultados
Mapa disperso
Gerou agrupamento
35
Nro.
Exp.
Formato do
Mapa
Nro. de
Neurônios
Erro de
Distorção
Erro de
Quantização
Erro
Topográfico
Tempo de
Processamento
1 11 x 9 99 123.508 3.825 0,045 238s
2 26 x 19 494 106.533 3.132 0,089 541s
3 37 x 27 999 91.756 2.965 0,146 881s
4 53 x 38 2.014 83.517 2.908 0,115 1.591s
5 64 x 47 3.008 74.777 2.835 0,130 1.877s
6 79 x 58 4.582 71.211 2.837 0,112 4.171s
7 91 x 66 6.006 69.787 2.866 0,123 5.963s
8 104 x 77 8008 66.897 2.812 0,115 12.342s
9 116 x 86 9976 66.311 2.835 0,118 17.455s
10 143 x 105 15015 65.647 2.809 0,094 23.403s
Ferramenta Matlab SOM Toolbox
Resultados
36
Figura 29 – Experimento 6: Agrupamentos mostram o relacionamento entre
os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com
valor igual a “CLASS_D”.
Ferramenta Matlab SOM Toolbox
Resultados
37
Figura 31 - Evolução dos erros de Distorção, Quantização e Topográfico dos
mapas gerados.
Ferramenta Matlab SOM Toolbox
Validação da Heurística: 5 x √ Nro. vetores de entrada
Overfitting
Underfitting
Heurística:
5 x √837.285 =
4.575 neurônios
Intervalos c/
pouca variação
dos Erros
38
39
Interpretação e avaliação dos resultados
Mapas Viscovery e Matlab: Resultados semelhantes
DEVOLVIDA REJECT TEMPO_PROD CLASS_D
Viscovery
Matlab
40
Este agrupamento sugere que produtos que sofreram
algum retrabalho durante o processo produtivo e,
devido a isso, levaram mais tempo para serem
produzidos, são mais susceptíveis a apresentarem
problemas técnicos e consequentemente serem
devolvidos pelos clientes.
TEMPO_PROD
S2
S1
S3
0,00 0,15
REJECT: NOK
S2
S1
S3
0,0 0,5 1,0
DEVOLVIDA: S
S2
S1
S3
0,00 0,11
Interpretação e avaliação dos resultados
Agrupamento interessante
41
• Os melhores resultados foram gerados pelos Experimentos
5 e 6 (Grupo 2, sem os atributos XTAOPERATOR e BOM):
 Grupo de atributos que necessita do menor número de
Componentes Principais (PCAs) para representar 100%
da sua variabilidade
Interpretação e avaliação dos resultados
42
• Os piores resultados foram gerados pelos Experimentos 1,
3 e 8 (Grupo 2, com os atributos XTAOPERATOR e BOM):
 Grupo de atributos que necessita do maior número de
Componentes Principais (PCAs) para representar 100%
da sua variabilidade
Interpretação e avaliação dos resultados
44
CONSIDERAÇÕES FINAIS
Conclusões , Contribuições e Pesquisas futuras
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
45
• Com relação à técnica de MD utilizada
• Com relação às ferramentas utilizadas
• Com relação à metodologia utilizada
• Com relação aos resultados alcançados
Considerações Finais
Conclusões
48
1) Canto, W. F. ; Souza, L. S. ; CANTO, N. C. F. . Mineração de Dados: uma
aplicação para a indústria de semicondutores. In: 6ª Conferência Ibérica
de Sistemas e Tecnologias de Informação, 2011, Chaves. Mineração de
Dados: uma aplicação para a indústria de semicondutores, 2011. v. 1. p. 1-4.
2) CANTO, N. C. F. ; SASSI, R. J. ; Canto, W. F. . Aplicação de Mapas Auto-
organizáveis para Mineração de Textos. In: 6ª Conferência Ibérica de
Sistemas e Tecnologias de Informação, 2011, Chaves. Aplicação de Mapas
Auto-organizáveis para Mineração de Textos, 2011. v. 1.
Contribuições
Artigos Publicados
49
Considerações Finais
Pesquisas futuras
• Uso dos padrões gerados pela rede SOM para classificar
automaticamente seriais
• Aprofundar o estudo de técnicas de seleção de atributos
• Estudo de ferramentas de ETL (Extract Transform Load) para
automatizar o processo de extração
Especificamente para a empresa alvo deste estudo:
• Acumular conhecimento durante várias execuções do processo
de DCBD para diferentes meses
• Ampliar o nível de análise adicionando mais atributos no mapa
e/ou realizando novas combinações
MINERAÇÃO DE DADOS UTILIZANDO MAPAS
AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A
INDÚSTRIA DE SEMICONDUTORES
INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT
PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE
COMPUTAÇÃO – MOD. ENG. DE SOFTWARE
Defesa de Dissertação 1º Semestre 2012
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
51
Diagrama de Classes da Base de dados selecionada
ERP - Sistema Integrado de Gestão
SAT - Sistema de Assistência Técnica
SCP - Sistema de Controle de Produção
Origem dos dados
52
Tabela Sistema
Nro. de
registros
Nro. de
atributos
Descrição SGBD
TblJob SCP 7.574 29 Cabeçalho ordem produção MS SQL Server 2000
TblLot SCP 6.360.853 29
Item ordem de produção
(detalhes da produção)
MS SQL Server 2000
TblTransaction SCP 26.782.195 25
Detalhe item ordem de
produção
MS SQL Server 2000
TblRejectDetail SCP 153.162 6 Dados sobre rejeitos MS SQL Server 2000
Tbl_PPB ERP 17.263 11
Tipo de componente
consumido pela ordem
Oracle 9.0i
ZBR_TRMA ERP 35.060 4
Dados da devolução de
vendas
Oracle 9.0i
wMat_Clas ERP 699 17 Classificação dos Materiais Oracle 9.0i
AUFM ERP 354.998 41
Materiais consumidos pela
ordem de produção
Oracle 9.0i
t_RMAItem_A SAT 113.859 65 Dados de assistência técnica MS-Access 97
Total 33.825.663 227
53
Mapa Auto-organizável Self-organizing Map (SOM)
• Algoritmo criado pelo pesquisador Finlandês Dr. Teuvo Kohonen em 1982
• Tipo de rede neural artificial
• Reduz a dimensionalidade dos dados
• Utiliza aprendizado competitivo e não supervisionado
• Permite visualização dos resultados obtidos
• Pode ser usado na análise de agrupamento de dados
• Há dificuldades para definição dos parâmetros que regulam o comportamento da
rede (quantidade de neurônios de saída, taxa de aprendizado e outros)
54
Arquitetura da Rede SOM
55
Algoritmo SOM
Atualização do neurônio vencedor (BMU) e seus vizinhos
Neurônio
vencedor
BMU = Best Matching Unit
56
y
x
m1
m2
m3
m4
m5
m6
v1
Função de vizinhançaTaxa de aprendizado
Neurônio vencedor
Algoritmo SOM
57
Diferentes arranjos de neurônios para o SOM
58
Redução da Dimensionalidade
P ≤ D
59
Matriz-U em um arranjo retangular (A) e hexagonal (B)
60
61
Processo de DCBD (Fayyad, 1996)
62
Processo CRISP-DM (CHAPMAN, CLINTON et al., 2000)
63
Processo SEMMA (SAS, 2012)
64
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
1
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 2.000
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Todos os atributos do Grupo 2 com
prioridade igual a 1, exceto atributo
DEVOLVIDA que recebeu a prioridade 0
Experimentos 1
65
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
2
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 2.000
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,20
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,20
XTASHIFT: 1,00
XTAOPERATOR: 0,70
XTALINE: 1,00
BOM: 0,70
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 2
66
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
3
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Todos os atributos do Grupo 2 com
prioridade igual a 1, exceto atributo
DEVOLVIDA que recebeu a prioridade
0
Experimento 3
67
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
4
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,20
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,20
XTASHIFT: 1,00
XTAOPERATOR: 0,70
XTALINE: 1,00
BOM: 0,70
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 4
68
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
5
Total: 836.564
Devolvidos: 2.456
10 atributos
34 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2 (sem XTAOPERATOR e
BOM)
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,00
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,00
XTASHIFT: 1,00
XTALINE: 1,00
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 5
69
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
6
Total: 836.564
Devolvidos: 2.456
10 atributos
34 dimensões
- Nro. de Neurônios: 2.000
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2 (sem XTAOPERATOR e
BOM)
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,00
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,00
XTASHIFT: 1,00
XTALINE: 1,00
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 6
70
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
7
Total: 836.564
Devolvidos: 2.456
13 atributos
136 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento: Normal
- Tensão: 0,5
- Compensação da correlação:
ligado
Grupo 1 (com TEMPO_PROD, REJECT e
DEVOLVIDA)
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_OR: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
TEMPO_PROD: 1,2
REJECT: 1,2
DEVOLVIDA: 0
Experimento 7
71
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
8
Total: 836.564
Devolvidos: 2.456
25 atributos
391 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento: Normal
- Tensão: 0,5
- Compensação da correlação: ligado
Grupo 1 + Grupo 2 (com XTAOPERATOR e BOM)
NJOBQTY: 1
DIA_SEM: 1
TEMPO_PROD: 1
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_ORG: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
ORDER_CLASS: 1
TIPO_CI: 1
REJECT: 1
XTASHIFT: 1
XTAOPERATOR: 0,7
XTALINE: 1
BOM: 0,7
BOM_VERSION: 1
DEVOLVIDA: 0
Experimento 8
72
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
9
Total: 836.564
Devolvidos: 2.456
23 atributos
165 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento: Normal
- Tensão: 0,5
- Compensação da correlação: ligado
Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM)
NJOBQTY: 1
DIA_SEM: 1
TEMPO_PROD: 1
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_ORG: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
ORDER_CLASS: 1
TIPO_CI: 1
REJECT: 1
XTASHIFT: 1
XTALINE: 1
BOM_VERSION: 1
DEVOLVIDA: 0
Experimento 9
73
Figura 23 - Experimentos 1 (a) e 3 (b): não apresentam agrupamentos relevantes.
Experimentos 1 e 3
74
Cubo OLAP (On-line Analytical Processing)
75
TEMPO_PROD
S2
S1
S3
0,00 0,15
REJECT: NOK
S2
S1
S3
0,0 0,5 1,0
DEVOLVIDA: S
S2
S1
S3
0,00 0,11
S2
S1
S3
Figura 24 - Experimento 5: apresenta agrupamentos
bem definidos.
Figura 25 – Experimento 5: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores
mais altos na mesma região do mapa (agrupamento S3), mostrando que há um relacionamento
entre estes atributos.
Experimento 5
76
TEMPO_PROD
0,00 0,03 0,07 0,10 0,13 0,16
REJECT: NOK
0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0
DEVOLVIDA: S
0,00 0,03 0,05 0,08 0,11 0,13
Quantization Error
0 0 0 0 0 0 0 0 30
Figura 27 – Experimento 8: não apresenta agrupamentos relevantes.
Experimento 8
77
TEMPO_PROD
0,00 0,02 0,05 0,07 0,09 0,12
REJECT: NOK
0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0
DEVOLVIDA: S
0,00 0,03 0,05 0,08 0,10 0,13
Quantization Error
0 0 0 0 0 0 0 0 16
Figura 28 – Experimento 9: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores mais altos na
mesma região do mapa (agrupamento S3), mostrando que há um relacionamento entre estes atributos, resultado
semelhante ao experimento 5.
Experimento 9
78
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Processo DCBD
AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-DM: A parallel overview. IADIS
European Conference Data Mining 2008, p. 182-185, 2008.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge
Discovery in Databases. Advances in Knowledge Discovery and Data Mining,
Cambridge, p. p. 1-36, 1996.
Aplicações de MD
na Indústria
LAINE, S. Using visualization, variable selection and feature extraction to learn from
industrial data. 2003. Tese de Doutorado Departamento de Ciência da Computação e
Engenharia, Helsinki University of Technology, Espoo.
DOMINGUES, M. L. C. S. Mineração de Dados Utilizando Aprendizado Não-
Supervisionado: um estudo de caso para bancos da saúde 2003. Mestrado em
Ciência da Computação Instituto de Informática, Universidade Federal do Rio Grande
do Sul
GIUDICI, P.; FIGINI, S. Applied Data Mining for Business and Industry. 2
a
. Wiley-
Interscience, 2009.
LUFTMAN, J.; BEN-ZVI, T. Key Issues for IT Executives 2011: Cautions Optimism in
Uncertain Economic Times. MIS Quartely Executive - Universidade of Minnesota, v.
10, n. 4, p. 203-213, 2011.
SIMULA, O.; VESANTO, J. The Self-Organzing Map in Industry Analysis. Industrial
Applications of Neural Networks, n. 1, p. 89-112, 1998.
Preparação de
Dados
PYLE, D. Data Preparation for Data Mining. 1st edition. Academic Press, 1999. p. 349
REFAAT, M. Data Preparation for Data Mining Using SAS. Elsevier, 2007.
79
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Mineração e
Agrupamento de
Dados
LAINE, S. Selecting the variables that train a self-organizing map (SOM) which best
separates predefined clusters Proceedings ofthe 9th International Conference on
Neural Information Processing (ICONIP'02), v. 4, p. 1961-1965, 2002b.
LAINE, S. Finding the variables of interest. Minerals Engineering, n. 15, p. 167–176,
2002a.
NISBET, R.; ELDER, J.; MINER, G. Handbook of Statistical Analysis and Data Mining
Applications. Elsevier, 2009.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining - Mineração de
Dados. 2009. p. 1-15
Qualidade de Dados OLSON, J. O. Data Quality: The Accuracy Dimension. Elsevier, 2003.
Mapas SOM
PÖLZLBAUER, G. Advanced data exploration methods based on Self-Organizing
Maps. 2008. Tese de Doutorado Information and Software Engineering Group,
Vienna University of Technology
KOHONEN, T. Self-organizing maps. 3rd edition. Springer, 2001.
KASKI, S. Data Exploration using Self-Organizing Maps. 1997. Tese de Doutorado
Departamento de Ciência da Computação e Engenharia, Helsinki University of
Technology
ZUCHINI, M. H. Aplicações de Mapas Auto-organizáveis em Mineração de Dados e
Recuperação de Informação. 2003. Mestrado em Eng. Elétrica Faculdade de Eng.
Elétrica e de Computação, Universidade Estadual de Campinas
80
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Ferramentas Geração
Mapas SOM
DEMUTH, H.; BEALE, M.; HAGAN, M. Matlab - Neural Network Toolbox 6: The
Mathworks 2009.
MOEHRMANN, J. et al. A Discussion on Visual Interactive Data Exploration Using
Self-Organizing Maps. WSOM 2011, p. 178-187, 2011.
VISCOVERY. Viscovery SOMine web page. 2010. Disponível em: <
http://www.viscovery.net/somine/ >. Acesso em: 13-Dez-2011.
Banco de Dados
CHEN, P. Modelagem de Dados. 1990.
SETZER, V. W. Banco de Dados: Conceitos, Modelos, Gerenciadores, Projeto Lógico,
Projeto Físico. Edgard Blücher, 1987.
Estatística:
Correlação e PCA
AILON, N.; CHAZELLE, B. Faster Dimension Reduction. Communications of the ACM,
v. 53, n. 2, p. 97, 2010.
HILL, T.; LEWICKI, P. STATISTICS: Methods and Applications. StatSoft. 2007.
Medidas de
Qualidade de Mapas
SOM
PÖLZLBAUER, G. Survey and comparison of quality measures for self-organizing
maps. Proceedings of the Fifth Workshop on Data Analysis (WDA'04), 2004. Elfa
Academic Press. p.67-82.
81
82
Sub-processos DCBD CRISP-DM SEMMA
1) Compreender o domínio da
aplicação e identificar o objetivo do
processo DCBD.
Pré DCBD
Entendimento do
negócio
-
2) Selecionar, organizar e preparar
dados
Seleção de dados Entendimento dos
Dados
Amostragem
3) Executar análise exploratória e
transformação dos dados
Pré-processamento Explorar os dados
Transformação
Preparação dos
dados
Modificação dos
dados
4) Especificar métodos estatísticos
Mineração de Dados Modelagem Modelagem
5) Executar algoritmos de mineração
de dados e colher os resultados
6) Avaliar e comparar os métodos
usados e escolher o método final de
análise
7) Interpretar o método escolhido e o
seu uso no processo de decisão
Interpretação/Avaliação Avaliação Avaliação
Pós DCBD Implantação -
Comparação entre os processos
DCBD, CRISP-DM e SEMMA
83
Item de
comparação
Matlab SOM Toolbox +
SOMVIS
Viscovery SOMine
Finalidade
– Uso acadêmico
– Código aberto
– Uso profissional
– Ferramenta proprietária
Algoritmo
– Em lote (batch)
– Sequencial e SOM_PAK
– SOM Ward
Medidas de qualidade
SOM
– Erro de Quantização
– Erro de Distorção
– Erro Topográfico
– Outras medidas podem ser programadas
– Erro de quantização
– Erro de Distorção normalizado
Pré-processamento de
dados
– Normalização de dados numéricos
– Normalização e limpeza
– Histogramas
– Estatística (PCA, correlação de Pearson)
Parâmetros de geração
de Mapas
– Algoritmo de treinamento, tamanho e
topologia do mapa
– Algoritmo de treinamento, tamanho e
topologia do mapa
– Número de épocas de treinamento (Training
Schedulle)
Análise dos Mapas
– Gera mapas estáticos
– Relatórios podem ser desenvolvidos usando
a linguagem de programação do Matlab.
– Rótulos em Agrupamentos
– Visualização dos dados de agrupamentos
– Permite a seleção de agrupamentos e
análise dos vetores que atingiram cada
agrupamento e/ou segmentação
Características especiais – Não possui
– Priorização de atributos
– Ajuste da tensão do mapa
84
Ferramenta Prós Contras
Viscovery SOMine
 Interação com os mapas
gerados
 Visualização dos vetores que
atingiram cada neurônio
 Performance em
altos volumes
Matlab SOM
Toolbox + SOMVIS
 Múltiplas visualizações dos
dados
 Flexibilidade de adaptação:
Ambiente Matlab de
programação
 Ferramenta didática, própria
para o ensino de redes SOM
 Performance em altos
volumes
 Não permite
priorização de
atributos
 Formato do arquivo
de entrada
85
86
Fase 1 Fase 2 Fase 3 Fase n
Matérias-Primas
Fases produtivas
Produto Acabado
Obs.: existem 3 linhas produtivas
Estrutura do Produto
placa de circuito impresso
solda
CI (circuito integrado)
componentes (resistores, capacidores)
CI (circuito integrado)
- CI pode ser produzido internamente ou
importado.
- Os outros componentes são
comprados.
Processo de Produção de Módulos de Memória
87
Figura 30 – Experimento 6: Agrupamentos mostram o relacionamento entre os
atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com valor
igual a “CLASS_D”.
88
Figura 32 – (a) Projeção PCA dos
primeiros 2 componentes principais; (b)
Gráfico da variação acumulada da
PCA pelo número de dimensões
Figura 33 - (a) Agrupamento
PCA destacado na grade de
neurônios; (b) Plano de
componentes principais
ordenado pelo valor absoluto
da correlação linear. A área
demarcada mostra os atributos
CLASS_D, DEVOLVIDA,
REJECT e TEMPO_PROD.
89
Arquivo de entrada na ferramenta Matlab
90
Redução da dimensionalidade
Análise de Componentes Principais (PCA)
91
Medidas de Qualidade SOM
• Erro de Quantização (QE): Resolução do mapa,
decresce conforme cresce o tamanho do mapa, medida
de quão bem os vetores de conjunto de dados de
origem atingem um neurônio específico. Em um mapa
bem treinado, os erros de quantização são pequenos e
distribuídos pelo mapa.
• Erro Topográfico (TE): Topologia dos dados de entrada,
qualidade da projeção, pode ser usado para
aperfeiçoar o tamanho do mapa.
• Erro de Distorção (DE): Medida de qualidade geral do
mapa.

Contenu connexe

Similaire à IPT defesa Wagner F Canto v6

Treinamento Six Sigma LG Electronics
Treinamento Six Sigma LG ElectronicsTreinamento Six Sigma LG Electronics
Treinamento Six Sigma LG Electronicsejedelmal
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...
Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...
Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...Marcelo Schumacher
 
Curso de Inverno 2014 - Simuladores de Satélite
Curso de Inverno 2014 - Simuladores de SatéliteCurso de Inverno 2014 - Simuladores de Satélite
Curso de Inverno 2014 - Simuladores de SatéliteChristopher Cerqueira
 
Apresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptx
Apresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptxApresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptx
Apresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptxdataRain
 
Simulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades ComputacionaisSimulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades ComputacionaisIgor José F. Freitas
 
Fabricas digitais techday
Fabricas digitais   techdayFabricas digitais   techday
Fabricas digitais techdayEmanuel Campos
 
Aula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane Fidelix
Aula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane FidelixAula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane Fidelix
Aula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane FidelixCris Fidelix
 
GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...
GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...
GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...Patrick Pires Alvim
 
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosBanco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosLeinylson Fontinele
 
Entrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine LearningEntrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine LearningThoughtWorks Brasil
 
Procedimento de Elaboracao de Documentos
Procedimento de Elaboracao de DocumentosProcedimento de Elaboracao de Documentos
Procedimento de Elaboracao de DocumentosMarcos Abreu
 
Template de Apresentação Certificação Lean Seis Sigma Black Belt
Template de Apresentação Certificação Lean Seis Sigma Black BeltTemplate de Apresentação Certificação Lean Seis Sigma Black Belt
Template de Apresentação Certificação Lean Seis Sigma Black BeltAndrCarvalho807919
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data CollectionBRAVA Tecnologia
 
OEE Apresentação TCC
OEE Apresentação TCCOEE Apresentação TCC
OEE Apresentação TCCMarcos Valle
 
Isa Show 2009 Cr 259.09 Francisco Salvador
Isa Show 2009   Cr 259.09   Francisco SalvadorIsa Show 2009   Cr 259.09   Francisco Salvador
Isa Show 2009 Cr 259.09 Francisco SalvadorFrancisco Salvador
 
Estimativa de software usando pontos de função
Estimativa de software usando pontos de funçãoEstimativa de software usando pontos de função
Estimativa de software usando pontos de funçãoClaudio Martins
 

Similaire à IPT defesa Wagner F Canto v6 (20)

Treinamento Six Sigma LG Electronics
Treinamento Six Sigma LG ElectronicsTreinamento Six Sigma LG Electronics
Treinamento Six Sigma LG Electronics
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...
Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...
Gerenciamento de Requisitos como Alternativa de Otimização na Manutenção de S...
 
Curso de Inverno 2014 - Simuladores de Satélite
Curso de Inverno 2014 - Simuladores de SatéliteCurso de Inverno 2014 - Simuladores de Satélite
Curso de Inverno 2014 - Simuladores de Satélite
 
Apresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptx
Apresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptxApresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptx
Apresentação Seeds to the Cloud - Carlos Paiola, Aquarius.pptx
 
Simulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades ComputacionaisSimulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades Computacionais
 
Fabricas digitais techday
Fabricas digitais   techdayFabricas digitais   techday
Fabricas digitais techday
 
Aula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane Fidelix
Aula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane FidelixAula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane Fidelix
Aula 01 - Introdução Engenharia de requisitos - Prof.ª Cristiane Fidelix
 
GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...
GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...
GERENCIAMENTO DO ESCOPO DE PROJETO DE SISTEMA DE DETECÇÃO, ALARME E COMBATE A...
 
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosBanco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
 
Entrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine LearningEntrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine Learning
 
Procedimento de Elaboracao de Documentos
Procedimento de Elaboracao de DocumentosProcedimento de Elaboracao de Documentos
Procedimento de Elaboracao de Documentos
 
Projeto de Melhoria
Projeto de MelhoriaProjeto de Melhoria
Projeto de Melhoria
 
Template de Apresentação Certificação Lean Seis Sigma Black Belt
Template de Apresentação Certificação Lean Seis Sigma Black BeltTemplate de Apresentação Certificação Lean Seis Sigma Black Belt
Template de Apresentação Certificação Lean Seis Sigma Black Belt
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data Collection
 
OEE Apresentação TCC
OEE Apresentação TCCOEE Apresentação TCC
OEE Apresentação TCC
 
Isa Show 2009 Cr 259.09 Francisco Salvador
Isa Show 2009   Cr 259.09   Francisco SalvadorIsa Show 2009   Cr 259.09   Francisco Salvador
Isa Show 2009 Cr 259.09 Francisco Salvador
 
aula03-2s2016.pdf
aula03-2s2016.pdfaula03-2s2016.pdf
aula03-2s2016.pdf
 
Estimativa de software usando pontos de função
Estimativa de software usando pontos de funçãoEstimativa de software usando pontos de função
Estimativa de software usando pontos de função
 
seissigmatrad.pdf
seissigmatrad.pdfseissigmatrad.pdf
seissigmatrad.pdf
 

IPT defesa Wagner F Canto v6

  • 1. MINERAÇÃO DE DADOS UTILIZANDO MAPAS AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A INDÚSTRIA DE SEMICONDUTORES INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE COMPUTAÇÃO – MOD. ENG. DE SOFTWARE Defesa de Dissertação 1º Semestre 2012 Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  • 3. 3 INTRODUÇÃO Motivação, justificativa e objetivo Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  • 4. 4 Processo Produtivo de Semicondutores Análise de dados Melhoria do Processo Produtivo Motivação • Aplicação da Mineração de Dados (MD) em um caso prático: Análise de dados gerados pelo processo produtivo de uma indústria de semicondutores • Agrupamento de Dados → Mapas de Kohonen (SOM – Self Organizing Maps)
  • 5. 5 Justificativa e relevância do estudo • Dificuldades na aplicação de redes SOM: – Definição dos parâmetros que regulam o comportamento – Preparação de dados e seleção de atributos • Incorporação da Mineração de Dados ao processo de negócio: objetivo raramente alcançado • Falta de pesquisas aplicadas na área de Mineração de Dados • Fracassos na área de Mineração de Dados são raramente documentados
  • 6. 6 Objetivo • Objetivo Geral – Uso de Mapas Auto-organizáveis (Self-organizing maps – SOM) em aplicações de Mineração de Dados • Objetivo Específico – Desenvolver um processo com o qual se pretende: • Identificar caminhos, demandas e restrições no uso da técnica para Mineração de Dados originados no processo de fabricação de semicondutores; • Investigar técnicas heurísticas para a determinação dos parâmetros que regulam o comportamento de redes SOM e para seleção e priorização de atributos.
  • 7. 7 REVISÃO BIBLIOGRÁFICA Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  • 8. 8 Revisão Bibliográfica Visão Geral das Teorias de Suporte Modelos de Processo: DCBD, CRISP-DM, SEMMA Banco de Dados Preparação de dados para MD Dimensionalidade de dados Qualidade de dados Mineração de Dados Agrupamento de dados Mapas SOM Parametrização de Mapas SOM e suas heurísticas Medidas de Qualidade de Mapas SOM Ferramentas Geração Mapas SOM Estatística: Correlação e PCA Aplicações da MD na Indústria
  • 9. 9 METODOLOGIA Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  • 10. 10 Metodologia Abordagem Metodológica Metodologia de Pesquisa 3. Execução Processo DCBD (Estudo de Caso) 3.1 Definição dos objetivos 3.2 Seleção & Pré-processamento 3.3 Limpeza & Transformação 3.4 Mineração de Dados 3.5 Interpretação / Avaliação 2. Definição Instância do Processo DCBD 1. Revisão Bibliográfica 4. Considerações Finais
  • 11. 11 Definição da Instância do Processo DCBD (Descoberta de Conhecimento em BD) DCBD (Fayyad, 1996) CRISP-DM (CHAPMAN, CLINTON et al., 2000) SEMMA (SAS, 2012) Figura 12 - Processo para execução dos experimentos de DCBD.
  • 13. 13 • SOM Toolbox (2005) e SOMVIS (2009) • Biblioteca Matlab de código aberto • Universidade de Tecnologia de Helsinki/Finlândia. http://www.cis.hut.fi/projects/somtoolbox/ Ferramentas de geração de Mapas SOM selecionadas • Viscovery SOMine 5.2 (2010) • Ferramenta comercial • Viscovery Software GmbH Viena, Áustria http://www.viscovery.net/somine/ http://www.viscovery.net/customers
  • 14. 15 ESTUDO DE CASO Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  • 15. 16 Objetivo do processo de DCBD • Analisar os dados gerados pelo processo produtivo e identificar padrões que possam revelar informações até então desconhecidas como, por exemplo, características dos produtos que são devolvidos pelos clientes devido a mau funcionamento
  • 18. 19 Processo de Produção de Módulos de Memória • Dados coletados:  Compras  Produção  Vendas  Devolução de Clientes
  • 19. 20 Visão Geral dos Sistemas de Informação da Empresa alvo do estudo de caso
  • 20. 21 Sistema Origem Dados disponíveis Características Técnicas Sistema de Controle de Produção (SCP)  Histórico das etapas de elaboração do produto  Histórico de eventos / defeitos  Máquinas utilizadas em cada fase  Operadores  Lotes de fabricação  Número de série do produto  Quantidades produzidas  Resultado de testes de qualidade  33 milhões de registros (1 ano)  SGBD: MS-SQL Server Sistema Integrado de Gestão (ERP)  Dados de fornecedores (compras)  Dados de clientes (vendas)  Dados de produção (lotes matérias- primas utilizadas em cada ordem de fabricação)  408 mil de registros (1 ano)  SGBD: Oracle Sistema de Assistência Técnica (SAT)  Dados de devolução de clientes (por mau funcionamento do produto)  Análise de falhas  Histórico de falhas  113 mil registros (1 ano)  SGBD: MS- Access 97 Detalhamento das informações contidas nas bases de dados dos sistemas SCP, ERP e SAP
  • 22. 23 Consulta SQL Data Mining View Critério de Seleção: Ordens de Produção criadas entre Ago e Set/2011 Tabelas dos Sistemas: • ERP - Sistema Integrado de Gestão • SCP - Sistema de Controle de Produção • SAT - Sistema de Assistência Técnica 49 atributos 837.285 seriais (registros) 2.456 seriais devolvidos 333 ordens de produção Consulta SQL desenvolvida para extrair dados dos sistemas ERP, SCP e SAT
  • 24. 25 Limpeza & Transformação de dados DM View Limpeza e Transformação  Análise da qualidade dos dados: descarte de atributos  Transformação e Normalização de atributos  Geração dos arquivos no formato de cada ferramenta  Seleção de atributos: redução da dimensionalidade Formato Matlab Formato Viscovery Cubo OLAP Geração de PCA & Correlação 837.285 seriais 49 atributos 25 atributos
  • 25. 26 SCP ERP SAT DM View Consulta SQLSeleção e pré-processamento Limpeza e transformação dos dados 226 atributos 1623 dimensões 49 atributos 1127 dimensões 25 atributos 391 dimensões Sistemas Correlação e PCA Análise da Qualidade dos Dados Seleção de registros de Ago e Set/2011 Cubo OLAP Padrões / Agrupamentos 12 atributos 260 dimensões Seleção de Atributos Mineração de Dados Geração Mapas SOM
  • 26. 27 SCP ERP SAT DM View Consulta SQLSeleção e pré-processamento Limpeza e transformação dos dados 226 atributos 1623 dimensões 49 atributos 1127 dimensões 25 atributos 391 dimensões Sistemas Correlação e PCA Análise da Qualidade dos Dados Seleção de registros de Ago e Set/2011 Cubo OLAP Padrões / Agrupamentos 12 atributos 260 dimensões Seleção de Atributos Mineração de Dados Geração Mapas SOM
  • 27. 28 Grupos # Atributo Descrição do atributo Tipo atributo Dimensões geradas Valor Min/Máx Média Desv. Padrão Valores Nulos Atributo chave LOTLOTKEY Número do serial do produto C 0 0 (0%) Grupo 1 Atributos de Classificação do Produto 1 JOBPARTID Código do produto C 75 0 (0%) 2 X512MB_EQUIV Equivalência com produto de 512MB N 1 0 (0%) 3 APPLICATION Aplicação do produto (Desktop, Laptop, ...) C 4 0 (0%) 4 CAPACITY Capacidade C 4 0 (0%) 5 DENSITY Densidade C 3 0 (0%) 6 MONO_IC Mono IC C 5 0 (0%) 7 IC_REVISION Revisão do CI C 5 0 (0%) 8 MONO_ORG Organização do Mono C 5 0 (0%) 9 MONO_QTY Quantidade de CI C 6 0 (0%) 10 ORGANIZATION Organização do CI C 10 0 (0%) 11 PLATFORM Tipo de utilização C 3 0 (0%) 12 SUPPLIER Fornecedor C 5 0 (0%) 13 TYPE Tipo de produto C 5 0 (0%) Total 131 dimensões Grupo 1 de atributos Classificação do Produto
  • 28. 29 Grupos # Atributo Descrição do atributo Tipo atributo Dimensões geradas no vetor de entrada Valor Min/Máx Média Desv. Padrão Valores Nulos Grupo 2 Atributos relacionados com à produção 14 NJOBQTY Quantidade produzida pela ordem de produção N 1 0,002 /1,000 0,561 0,267 0 (0%) 15 DIA_SEM Dia semana término da produção C 7 0 (0%) 16 TEMPO_PROD Tempo decorrido entre o início e o fim da produção N 1 0,000 /1,000 0,005 0,011 0 (0%) 17 ORDER_CLASS Classificação da Ordem C 4 0 (0%) 18 TIPO_CI Classificação do CI usado C 2 41.803 (5,00%) 19 REJECT Local do rejeito C 2 0 (0%) 20 XTASHIFT Turno de produção C 4 0 (0%) 21 XTAOPERATOR Operador que testou a peça C 80 0 (0%) 22 XTALINE Linha de produção C 4 41.803 (5,00%) 23 BOM Código da estrutura de produto usada C 146 0 (0%) 24 BOM_VERSION Versão da Estrutura de Produtos (BoM) C 7 0 (0%) 25 DEVOLVIDA Produto devolvido pelo cliente (Sim/Não) C 2 0 (0%) Total 260 dimensões Grupo 2 de atributos Atributos relacionados com à produção
  • 29. 30 # Grupo de atributos Dimensões originais Componentes Principais Redução de dimensões 1 Grupo 1 131 74 -44% 2 Grupo 1 (com TEMPO_PROD, REJECT, DEVOLVIDA) 136 76 -44% 3 Grupo 2 260 240 -8% 4 Grupo 2 (sem XTAOPERATOR e BOM) 34 25 -26% 5 Grupo 1 + Grupo 2 391 240 -39% 6 Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM) 165 98 -41% Redução da dimensionalidade Análise de Componentes Principais (PCA)
  • 30. 31 Figura 19 – Percentual da variação acumulada em função dos números de componentes principais. Redução da dimensionalidade % Variação Acumulada x Componentes Principais
  • 32. 33 Planejamento dos experimentos • Verificar o efeito da priorização e do uso de diferentes combinações de atributos na formação de agrupamentos • Aplicar heurísticas para definição do número de neurônios e verificar a sua influência nas medidas de qualidade de mapas SOM
  • 33. 34 Nro. Exp. Grupo de Atributos Atributos Prioriz.? N de Neurônios Distorção Normalizada Erro de Quantização Médio Erro de Quantização Máximo Tempo de Proc. Resultado 1 Grupo 2 12 atributos/260 dimensões Não 2000 0,007681 0,003939 64 9h 39min - Mapa disperso - Erros altos 2 Grupo 2 12 atributos/260 dimensões Sim 2000 0,003811 0,002166 9 6h - Indicou agrupamento 3 Grupo 2 12 atributos/260 dimensões Não 4.565 0,006134 0,001742 63 12h 56min - Mapa disperso - Erros altos 4 Grupo 2 12 atributos/260 dimensões Sim 4.565 0,002631 0,001144 4,2 11h 58min - Indicou agrupamento com mais intensidade 5 Grupo 2 (sem XTAOPERATOR e BOM) 10 atributos/34 dimensões Não 4.565 0,01522 0,001806 1,3 1h 31min - Indicou agrupamento com mais intensidade - Erros mais baixos 6 Grupo 2 (sem XTAOPERATOR e BOM) 10 atributos/34 dimensões Não 2.000 0,02827 0,01011 33 35 min - Indicou agrupamento com mais intensidade - Erros altos 7 Grupo 1 (com TEMPO_PROD, REJECT e DEVOLVIDA) 13 atributos/136 dimensões Sim 4.565 0,01532 0,00008758 0,33 4h 56min - Nenhum relacionamento entre os atributos do Grupo 1 e os atributos DEVOLVIDA, REJECT e TEMPO_PROD. 8 Grupo 1 + Grupo 2 (com XTAOPERATOR e BOM) 25 atributos/391 dimensões Sim 4.565 0,002354 0,0009642 30 26h 19min - Mapa disperso - Erros altos 9 Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM) 23 atributos/165 dimensões Sim 4.565 0,0219 0,003582 16 11h 14min - Indicou agrupamento com menor intensidade - Erros mais baixos Ferramenta Viscovery SOMine Resultados Mapa disperso Gerou agrupamento
  • 34. 35 Nro. Exp. Formato do Mapa Nro. de Neurônios Erro de Distorção Erro de Quantização Erro Topográfico Tempo de Processamento 1 11 x 9 99 123.508 3.825 0,045 238s 2 26 x 19 494 106.533 3.132 0,089 541s 3 37 x 27 999 91.756 2.965 0,146 881s 4 53 x 38 2.014 83.517 2.908 0,115 1.591s 5 64 x 47 3.008 74.777 2.835 0,130 1.877s 6 79 x 58 4.582 71.211 2.837 0,112 4.171s 7 91 x 66 6.006 69.787 2.866 0,123 5.963s 8 104 x 77 8008 66.897 2.812 0,115 12.342s 9 116 x 86 9976 66.311 2.835 0,118 17.455s 10 143 x 105 15015 65.647 2.809 0,094 23.403s Ferramenta Matlab SOM Toolbox Resultados
  • 35. 36 Figura 29 – Experimento 6: Agrupamentos mostram o relacionamento entre os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com valor igual a “CLASS_D”. Ferramenta Matlab SOM Toolbox Resultados
  • 36. 37 Figura 31 - Evolução dos erros de Distorção, Quantização e Topográfico dos mapas gerados. Ferramenta Matlab SOM Toolbox Validação da Heurística: 5 x √ Nro. vetores de entrada Overfitting Underfitting Heurística: 5 x √837.285 = 4.575 neurônios Intervalos c/ pouca variação dos Erros
  • 37. 38
  • 38. 39 Interpretação e avaliação dos resultados Mapas Viscovery e Matlab: Resultados semelhantes DEVOLVIDA REJECT TEMPO_PROD CLASS_D Viscovery Matlab
  • 39. 40 Este agrupamento sugere que produtos que sofreram algum retrabalho durante o processo produtivo e, devido a isso, levaram mais tempo para serem produzidos, são mais susceptíveis a apresentarem problemas técnicos e consequentemente serem devolvidos pelos clientes. TEMPO_PROD S2 S1 S3 0,00 0,15 REJECT: NOK S2 S1 S3 0,0 0,5 1,0 DEVOLVIDA: S S2 S1 S3 0,00 0,11 Interpretação e avaliação dos resultados Agrupamento interessante
  • 40. 41 • Os melhores resultados foram gerados pelos Experimentos 5 e 6 (Grupo 2, sem os atributos XTAOPERATOR e BOM):  Grupo de atributos que necessita do menor número de Componentes Principais (PCAs) para representar 100% da sua variabilidade Interpretação e avaliação dos resultados
  • 41. 42 • Os piores resultados foram gerados pelos Experimentos 1, 3 e 8 (Grupo 2, com os atributos XTAOPERATOR e BOM):  Grupo de atributos que necessita do maior número de Componentes Principais (PCAs) para representar 100% da sua variabilidade Interpretação e avaliação dos resultados
  • 42. 44 CONSIDERAÇÕES FINAIS Conclusões , Contribuições e Pesquisas futuras Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  • 43. 45 • Com relação à técnica de MD utilizada • Com relação às ferramentas utilizadas • Com relação à metodologia utilizada • Com relação aos resultados alcançados Considerações Finais Conclusões
  • 44. 48 1) Canto, W. F. ; Souza, L. S. ; CANTO, N. C. F. . Mineração de Dados: uma aplicação para a indústria de semicondutores. In: 6ª Conferência Ibérica de Sistemas e Tecnologias de Informação, 2011, Chaves. Mineração de Dados: uma aplicação para a indústria de semicondutores, 2011. v. 1. p. 1-4. 2) CANTO, N. C. F. ; SASSI, R. J. ; Canto, W. F. . Aplicação de Mapas Auto- organizáveis para Mineração de Textos. In: 6ª Conferência Ibérica de Sistemas e Tecnologias de Informação, 2011, Chaves. Aplicação de Mapas Auto-organizáveis para Mineração de Textos, 2011. v. 1. Contribuições Artigos Publicados
  • 45. 49 Considerações Finais Pesquisas futuras • Uso dos padrões gerados pela rede SOM para classificar automaticamente seriais • Aprofundar o estudo de técnicas de seleção de atributos • Estudo de ferramentas de ETL (Extract Transform Load) para automatizar o processo de extração Especificamente para a empresa alvo deste estudo: • Acumular conhecimento durante várias execuções do processo de DCBD para diferentes meses • Ampliar o nível de análise adicionando mais atributos no mapa e/ou realizando novas combinações
  • 46. MINERAÇÃO DE DADOS UTILIZANDO MAPAS AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A INDÚSTRIA DE SEMICONDUTORES INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE COMPUTAÇÃO – MOD. ENG. DE SOFTWARE Defesa de Dissertação 1º Semestre 2012 Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  • 47. 51 Diagrama de Classes da Base de dados selecionada ERP - Sistema Integrado de Gestão SAT - Sistema de Assistência Técnica SCP - Sistema de Controle de Produção Origem dos dados
  • 48. 52 Tabela Sistema Nro. de registros Nro. de atributos Descrição SGBD TblJob SCP 7.574 29 Cabeçalho ordem produção MS SQL Server 2000 TblLot SCP 6.360.853 29 Item ordem de produção (detalhes da produção) MS SQL Server 2000 TblTransaction SCP 26.782.195 25 Detalhe item ordem de produção MS SQL Server 2000 TblRejectDetail SCP 153.162 6 Dados sobre rejeitos MS SQL Server 2000 Tbl_PPB ERP 17.263 11 Tipo de componente consumido pela ordem Oracle 9.0i ZBR_TRMA ERP 35.060 4 Dados da devolução de vendas Oracle 9.0i wMat_Clas ERP 699 17 Classificação dos Materiais Oracle 9.0i AUFM ERP 354.998 41 Materiais consumidos pela ordem de produção Oracle 9.0i t_RMAItem_A SAT 113.859 65 Dados de assistência técnica MS-Access 97 Total 33.825.663 227
  • 49. 53 Mapa Auto-organizável Self-organizing Map (SOM) • Algoritmo criado pelo pesquisador Finlandês Dr. Teuvo Kohonen em 1982 • Tipo de rede neural artificial • Reduz a dimensionalidade dos dados • Utiliza aprendizado competitivo e não supervisionado • Permite visualização dos resultados obtidos • Pode ser usado na análise de agrupamento de dados • Há dificuldades para definição dos parâmetros que regulam o comportamento da rede (quantidade de neurônios de saída, taxa de aprendizado e outros)
  • 51. 55 Algoritmo SOM Atualização do neurônio vencedor (BMU) e seus vizinhos Neurônio vencedor BMU = Best Matching Unit
  • 52. 56 y x m1 m2 m3 m4 m5 m6 v1 Função de vizinhançaTaxa de aprendizado Neurônio vencedor Algoritmo SOM
  • 53. 57 Diferentes arranjos de neurônios para o SOM
  • 55. 59 Matriz-U em um arranjo retangular (A) e hexagonal (B)
  • 56. 60
  • 57. 61 Processo de DCBD (Fayyad, 1996)
  • 58. 62 Processo CRISP-DM (CHAPMAN, CLINTON et al., 2000)
  • 60. 64 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 1 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 2.000 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Todos os atributos do Grupo 2 com prioridade igual a 1, exceto atributo DEVOLVIDA que recebeu a prioridade 0 Experimentos 1
  • 61. 65 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 2 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 2.000 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,20 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,20 XTASHIFT: 1,00 XTAOPERATOR: 0,70 XTALINE: 1,00 BOM: 0,70 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 2
  • 62. 66 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 3 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Todos os atributos do Grupo 2 com prioridade igual a 1, exceto atributo DEVOLVIDA que recebeu a prioridade 0 Experimento 3
  • 63. 67 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 4 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,20 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,20 XTASHIFT: 1,00 XTAOPERATOR: 0,70 XTALINE: 1,00 BOM: 0,70 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 4
  • 64. 68 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 5 Total: 836.564 Devolvidos: 2.456 10 atributos 34 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 (sem XTAOPERATOR e BOM) NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,00 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,00 XTASHIFT: 1,00 XTALINE: 1,00 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 5
  • 65. 69 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 6 Total: 836.564 Devolvidos: 2.456 10 atributos 34 dimensões - Nro. de Neurônios: 2.000 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 (sem XTAOPERATOR e BOM) NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,00 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,00 XTASHIFT: 1,00 XTALINE: 1,00 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 6
  • 66. 70 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 7 Total: 836.564 Devolvidos: 2.456 13 atributos 136 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 1 (com TEMPO_PROD, REJECT e DEVOLVIDA) JOBPARTID: 0,7 X512MB_EQUIV: 1 APPLICATION: 1 CAPACITY: 1 DENSITY: 1 MONO_IC: 1 IC_REVISION: 1 MONO_OR: 1 MONO_QTY: 1 ORGANIZATION: 1 PLATFORM: 1 SUPPLIER: 1 TYPE: 1 TEMPO_PROD: 1,2 REJECT: 1,2 DEVOLVIDA: 0 Experimento 7
  • 67. 71 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 8 Total: 836.564 Devolvidos: 2.456 25 atributos 391 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 1 + Grupo 2 (com XTAOPERATOR e BOM) NJOBQTY: 1 DIA_SEM: 1 TEMPO_PROD: 1 JOBPARTID: 0,7 X512MB_EQUIV: 1 APPLICATION: 1 CAPACITY: 1 DENSITY: 1 MONO_IC: 1 IC_REVISION: 1 MONO_ORG: 1 MONO_QTY: 1 ORGANIZATION: 1 PLATFORM: 1 SUPPLIER: 1 TYPE: 1 ORDER_CLASS: 1 TIPO_CI: 1 REJECT: 1 XTASHIFT: 1 XTAOPERATOR: 0,7 XTALINE: 1 BOM: 0,7 BOM_VERSION: 1 DEVOLVIDA: 0 Experimento 8
  • 68. 72 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 9 Total: 836.564 Devolvidos: 2.456 23 atributos 165 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM) NJOBQTY: 1 DIA_SEM: 1 TEMPO_PROD: 1 JOBPARTID: 0,7 X512MB_EQUIV: 1 APPLICATION: 1 CAPACITY: 1 DENSITY: 1 MONO_IC: 1 IC_REVISION: 1 MONO_ORG: 1 MONO_QTY: 1 ORGANIZATION: 1 PLATFORM: 1 SUPPLIER: 1 TYPE: 1 ORDER_CLASS: 1 TIPO_CI: 1 REJECT: 1 XTASHIFT: 1 XTALINE: 1 BOM_VERSION: 1 DEVOLVIDA: 0 Experimento 9
  • 69. 73 Figura 23 - Experimentos 1 (a) e 3 (b): não apresentam agrupamentos relevantes. Experimentos 1 e 3
  • 70. 74 Cubo OLAP (On-line Analytical Processing)
  • 71. 75 TEMPO_PROD S2 S1 S3 0,00 0,15 REJECT: NOK S2 S1 S3 0,0 0,5 1,0 DEVOLVIDA: S S2 S1 S3 0,00 0,11 S2 S1 S3 Figura 24 - Experimento 5: apresenta agrupamentos bem definidos. Figura 25 – Experimento 5: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores mais altos na mesma região do mapa (agrupamento S3), mostrando que há um relacionamento entre estes atributos. Experimento 5
  • 72. 76 TEMPO_PROD 0,00 0,03 0,07 0,10 0,13 0,16 REJECT: NOK 0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0 DEVOLVIDA: S 0,00 0,03 0,05 0,08 0,11 0,13 Quantization Error 0 0 0 0 0 0 0 0 30 Figura 27 – Experimento 8: não apresenta agrupamentos relevantes. Experimento 8
  • 73. 77 TEMPO_PROD 0,00 0,02 0,05 0,07 0,09 0,12 REJECT: NOK 0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0 DEVOLVIDA: S 0,00 0,03 0,05 0,08 0,10 0,13 Quantization Error 0 0 0 0 0 0 0 0 16 Figura 28 – Experimento 9: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores mais altos na mesma região do mapa (agrupamento S3), mostrando que há um relacionamento entre estes atributos, resultado semelhante ao experimento 5. Experimento 9
  • 74. 78 Revisão Bibliográfica Visão Geral das Teorias de Suporte Processo DCBD AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-DM: A parallel overview. IADIS European Conference Data Mining 2008, p. 182-185, 2008. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. Advances in Knowledge Discovery and Data Mining, Cambridge, p. p. 1-36, 1996. Aplicações de MD na Indústria LAINE, S. Using visualization, variable selection and feature extraction to learn from industrial data. 2003. Tese de Doutorado Departamento de Ciência da Computação e Engenharia, Helsinki University of Technology, Espoo. DOMINGUES, M. L. C. S. Mineração de Dados Utilizando Aprendizado Não- Supervisionado: um estudo de caso para bancos da saúde 2003. Mestrado em Ciência da Computação Instituto de Informática, Universidade Federal do Rio Grande do Sul GIUDICI, P.; FIGINI, S. Applied Data Mining for Business and Industry. 2 a . Wiley- Interscience, 2009. LUFTMAN, J.; BEN-ZVI, T. Key Issues for IT Executives 2011: Cautions Optimism in Uncertain Economic Times. MIS Quartely Executive - Universidade of Minnesota, v. 10, n. 4, p. 203-213, 2011. SIMULA, O.; VESANTO, J. The Self-Organzing Map in Industry Analysis. Industrial Applications of Neural Networks, n. 1, p. 89-112, 1998. Preparação de Dados PYLE, D. Data Preparation for Data Mining. 1st edition. Academic Press, 1999. p. 349 REFAAT, M. Data Preparation for Data Mining Using SAS. Elsevier, 2007.
  • 75. 79 Revisão Bibliográfica Visão Geral das Teorias de Suporte Mineração e Agrupamento de Dados LAINE, S. Selecting the variables that train a self-organizing map (SOM) which best separates predefined clusters Proceedings ofthe 9th International Conference on Neural Information Processing (ICONIP'02), v. 4, p. 1961-1965, 2002b. LAINE, S. Finding the variables of interest. Minerals Engineering, n. 15, p. 167–176, 2002a. NISBET, R.; ELDER, J.; MINER, G. Handbook of Statistical Analysis and Data Mining Applications. Elsevier, 2009. TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining - Mineração de Dados. 2009. p. 1-15 Qualidade de Dados OLSON, J. O. Data Quality: The Accuracy Dimension. Elsevier, 2003. Mapas SOM PÖLZLBAUER, G. Advanced data exploration methods based on Self-Organizing Maps. 2008. Tese de Doutorado Information and Software Engineering Group, Vienna University of Technology KOHONEN, T. Self-organizing maps. 3rd edition. Springer, 2001. KASKI, S. Data Exploration using Self-Organizing Maps. 1997. Tese de Doutorado Departamento de Ciência da Computação e Engenharia, Helsinki University of Technology ZUCHINI, M. H. Aplicações de Mapas Auto-organizáveis em Mineração de Dados e Recuperação de Informação. 2003. Mestrado em Eng. Elétrica Faculdade de Eng. Elétrica e de Computação, Universidade Estadual de Campinas
  • 76. 80 Revisão Bibliográfica Visão Geral das Teorias de Suporte Ferramentas Geração Mapas SOM DEMUTH, H.; BEALE, M.; HAGAN, M. Matlab - Neural Network Toolbox 6: The Mathworks 2009. MOEHRMANN, J. et al. A Discussion on Visual Interactive Data Exploration Using Self-Organizing Maps. WSOM 2011, p. 178-187, 2011. VISCOVERY. Viscovery SOMine web page. 2010. Disponível em: < http://www.viscovery.net/somine/ >. Acesso em: 13-Dez-2011. Banco de Dados CHEN, P. Modelagem de Dados. 1990. SETZER, V. W. Banco de Dados: Conceitos, Modelos, Gerenciadores, Projeto Lógico, Projeto Físico. Edgard Blücher, 1987. Estatística: Correlação e PCA AILON, N.; CHAZELLE, B. Faster Dimension Reduction. Communications of the ACM, v. 53, n. 2, p. 97, 2010. HILL, T.; LEWICKI, P. STATISTICS: Methods and Applications. StatSoft. 2007. Medidas de Qualidade de Mapas SOM PÖLZLBAUER, G. Survey and comparison of quality measures for self-organizing maps. Proceedings of the Fifth Workshop on Data Analysis (WDA'04), 2004. Elfa Academic Press. p.67-82.
  • 77. 81
  • 78. 82 Sub-processos DCBD CRISP-DM SEMMA 1) Compreender o domínio da aplicação e identificar o objetivo do processo DCBD. Pré DCBD Entendimento do negócio - 2) Selecionar, organizar e preparar dados Seleção de dados Entendimento dos Dados Amostragem 3) Executar análise exploratória e transformação dos dados Pré-processamento Explorar os dados Transformação Preparação dos dados Modificação dos dados 4) Especificar métodos estatísticos Mineração de Dados Modelagem Modelagem 5) Executar algoritmos de mineração de dados e colher os resultados 6) Avaliar e comparar os métodos usados e escolher o método final de análise 7) Interpretar o método escolhido e o seu uso no processo de decisão Interpretação/Avaliação Avaliação Avaliação Pós DCBD Implantação - Comparação entre os processos DCBD, CRISP-DM e SEMMA
  • 79. 83 Item de comparação Matlab SOM Toolbox + SOMVIS Viscovery SOMine Finalidade – Uso acadêmico – Código aberto – Uso profissional – Ferramenta proprietária Algoritmo – Em lote (batch) – Sequencial e SOM_PAK – SOM Ward Medidas de qualidade SOM – Erro de Quantização – Erro de Distorção – Erro Topográfico – Outras medidas podem ser programadas – Erro de quantização – Erro de Distorção normalizado Pré-processamento de dados – Normalização de dados numéricos – Normalização e limpeza – Histogramas – Estatística (PCA, correlação de Pearson) Parâmetros de geração de Mapas – Algoritmo de treinamento, tamanho e topologia do mapa – Algoritmo de treinamento, tamanho e topologia do mapa – Número de épocas de treinamento (Training Schedulle) Análise dos Mapas – Gera mapas estáticos – Relatórios podem ser desenvolvidos usando a linguagem de programação do Matlab. – Rótulos em Agrupamentos – Visualização dos dados de agrupamentos – Permite a seleção de agrupamentos e análise dos vetores que atingiram cada agrupamento e/ou segmentação Características especiais – Não possui – Priorização de atributos – Ajuste da tensão do mapa
  • 80. 84 Ferramenta Prós Contras Viscovery SOMine  Interação com os mapas gerados  Visualização dos vetores que atingiram cada neurônio  Performance em altos volumes Matlab SOM Toolbox + SOMVIS  Múltiplas visualizações dos dados  Flexibilidade de adaptação: Ambiente Matlab de programação  Ferramenta didática, própria para o ensino de redes SOM  Performance em altos volumes  Não permite priorização de atributos  Formato do arquivo de entrada
  • 81. 85
  • 82. 86 Fase 1 Fase 2 Fase 3 Fase n Matérias-Primas Fases produtivas Produto Acabado Obs.: existem 3 linhas produtivas Estrutura do Produto placa de circuito impresso solda CI (circuito integrado) componentes (resistores, capacidores) CI (circuito integrado) - CI pode ser produzido internamente ou importado. - Os outros componentes são comprados. Processo de Produção de Módulos de Memória
  • 83. 87 Figura 30 – Experimento 6: Agrupamentos mostram o relacionamento entre os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com valor igual a “CLASS_D”.
  • 84. 88 Figura 32 – (a) Projeção PCA dos primeiros 2 componentes principais; (b) Gráfico da variação acumulada da PCA pelo número de dimensões Figura 33 - (a) Agrupamento PCA destacado na grade de neurônios; (b) Plano de componentes principais ordenado pelo valor absoluto da correlação linear. A área demarcada mostra os atributos CLASS_D, DEVOLVIDA, REJECT e TEMPO_PROD.
  • 85. 89 Arquivo de entrada na ferramenta Matlab
  • 86. 90 Redução da dimensionalidade Análise de Componentes Principais (PCA)
  • 87. 91 Medidas de Qualidade SOM • Erro de Quantização (QE): Resolução do mapa, decresce conforme cresce o tamanho do mapa, medida de quão bem os vetores de conjunto de dados de origem atingem um neurônio específico. Em um mapa bem treinado, os erros de quantização são pequenos e distribuídos pelo mapa. • Erro Topográfico (TE): Topologia dos dados de entrada, qualidade da projeção, pode ser usado para aperfeiçoar o tamanho do mapa. • Erro de Distorção (DE): Medida de qualidade geral do mapa.