Este documento apresenta os principais conceitos e etapas para coleta e modelagem de dados de entrada para simulação de eventos discretos. São descritas as etapas de coleta, tratamento e inferência de dados, com ênfase na importância da amostragem adequada, tratamento de valores discrepantes e escolha do melhor modelo probabilístico.
8 Aula de predicado verbal e nominal - Predicativo do sujeito
Entrada e Modelagem de Dados
1. Coleta e Modelagem dos Dados de Entrada
Capítulo 2
Páginas 24-52
Este material é disponibilizado para uso
exclusivo de docentes que adotam o livro
Modelagem e Simulação de Eventos
Discretos em suas disciplinas. O material
pode (e deve) ser editado pelo professor.
Pedimos apenas que seja sempre citada a
fonte original de consulta.
Prof. Afonso C. Medina
Prof. Leonardo Chwif
Versão 0.1
19/04/06
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 1
2. Três Etapas
Coleta
Tratamento
Inferência
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 2
3. Coleta dos Dados
1. Escolha adequada da variável de estudo
2. O tamanho da amostra deve estar entre
100 e 200 observações. Amostras com
menos de 100 observações podem
comprometer a identificação do melhor
modelo probabilístico, e amostras com
mais de 200 observações não trazem
ganhos significativos ao estudo;
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 3
4. Coleta dos Dados
3. Coletar e anotar as observações na mesma
ordem em que o fenômeno está ocorrendo,
para permitir a análise de correlação ;
4. Se existe alguma suspeita de que os dados
mudam em função do horário ou do dia da
coleta, a coleta deve ser refeita para
outros horários e dias. Na modelagem de
dados, vale a regra: toda suspeita deve
ser comprovada ou descartada
estatisticamente.
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 4
5. Exemplo 2.1: Filas nos Caixas do Supermercado
Um gerente de supermercado está preocupado
com as filas formadas nos caixas de pagamento
durante um dos turnos de operação. Quais seriam
as variáveis de estudo para coleta de dados? (S)
ou (N).
(N) O número de prateleiras no supermercado
(S) Os tempos de atendimento nos caixas
(N) O número de clientes em fila É resultado!!
(N) O tempo de permanência dos clientes no supermercado
(S) Os tempos entre chegadas sucessivas de clientes nos
caixas de pagamento
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 5
7. Exemplo 2.1: Medidas de Posição e Dispersão
Média 10,44
Mediana 5
Medidas de posição Moda 3
Mínimo 0
Máximo 728
Amplitude 728
Desvio padrão 51,42
Medidas de dispersão Variância da amostra 2.643,81
Coeficiente de Variação 493%
Coeficiente Assimetria 13,80
O 728 é um outlier?
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 7
9. Outliers ou Valores Discrepantes
Erro na coleta de dados. Este tipo de outlier é o mais comum,
principalmente quando o levantamento de dados é feito por meio
manual.
Eventos Raros. Nada impede que situações totalmente atípicas
ocorram na nossa coleta de dados. Alguns exemplos:
Um dia de temperatura negativa no verão da cidade do Rio de
Janeiro;
Um tempo de execução de um operador ser muito curto em
relação aos melhores desempenhos obtidos naquela tarefa;
Um tempo de viagem de um caminhão de entregas na cidade de
São Paulo, durante o horário de rush, ser muito menor do que
fora deste horário.
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 9
10. Exemplo 2.1: Outlier (valor discrepante)
Dados
com o sem o
outlier outlier
Média 10,44 6,83
Mediana 5 5
Variância da amostra 2.643,81 43,60
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 10
11. Identificação de Outliers: Box-plot
20 Q 3+1,5(Q 3- Q 1)
Valores
Q3
15
mediana
Q1
10
Q 1-1,5( Q 3- Q 1)
5
outlier
0
A B C
Séries
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 11
12. Análise de Correlação
50
Diagrama de dispersão dos tempos
Observação
de atendimento do exemplo de
k +1 supermercado, mostrando que não
40 há correlação entre as observações
da amostra.
30
20
10
0
0 10 20 30 40 50
Observação
k
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 12
13. Análise de Correlação
Diagrama de dispersão de um
20
exemplo hipotético em que existe
Observação
k +1 correlação entre os dados que
18
compõem a amostra.
16
14
12
10
10 12 14 16 18 20
Observação
k
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 13
14. Exemplo 2.1: Construção do Histograma
O histograma é utilizado para identificar qual a distribuição a ser
ajustada aos dados coletados ou é utilizado diretamente dentro do
modelo de simulação.
K = 1+ 3,3 log10 n
1. Definir o número de classes:
K= n
Amplitude
2. Definir o tamanho do intervalo: h=
K
3. Construir a tabela de freqüências
4. Construir o histograma
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 14
16. Exemplo 2.1: Inferência
Qual o melhor modelo probabilístico ou
distribuição estatística que pode representar a
amostra coletada? Lognormal? f (x)
µ=1 σ =0,5
Histograma h=4.8
Freqüência
µ =1 σ =1
120
100
80
60
40
20
0
4.8 14.3 23.9 33.4 43 x
Bloco
f (x )
1/λ
f (x )
Triangular?
f (x )
Normal?
x
Exponencial?
a m b x
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 16
17. Testes de Aderência (não paramétricos)
Testa a validade ou não da hipótese de aderência (ou hipótese
nula) em confronto com a hipótese alternativa:
H0: o modelo é adequado para representar a distribuição da
população.
Ha: o modelo não é adequado para representar a distribuição da
população.
Se a um dado nível de significância α(100)% rejeitarmos H0, o modelo testado
não é adequado para representar a distribuição da população. O nível de
significância α equivale à probabilidade de rejeitarmos a hipótese nula H0,
dado que ela está correta. Testes usuais:
Qui quadrado
Kolmogorov-Sminov
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 17
18. Teste do Qui=quadrado
Limites Freqüências
Inf Sup Exponencial Teórica (T) Observada (O) (O-T)^2/T
0 4.8 0.5022 100 96 0.16
4.8 9.6 0.2500 50 55 0.55
9.6 14.3 0.1244 25 25 0.00
14.3 19.1 0.0620 12 13 0.04
19.1 1.0E+10 0.0614 12 10 0.40
E 1.15
Confiança 5%
Graus de liberdade 3
Valor Teórico 7.81
p-value 0.76
a hipótese de que os dados
não
Portanto, aderem ao modelo
rejeitamos exponencial
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 18
19. P-value
Parâmetro usual nos softwares de estatística. Para o teste do qui-
quadrado no Excel, utilizar:
=DIST.QUI (valor de E; graus de liberdade)
Valor Critério
Evidência forte contra a hipótese de
p-value<0,01
aderência
Evidência moderada contra a hipótese de
0,01≤p-value<0,05
aderência
Evidência potencial contra a hipótese de
0,05≤p-value<0,10
aderência
Evidência fraca ou inexistente contra a
0,10≤p-value
hipótese de aderência
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 19
30. Distribuições contínuas: Weibull
f (x )
α =0,5 β =1
α =3 β =1
α =1 β =1 α =2 β =1
α =3 β =2
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 30
31. Modelagem de dados... Sem dados!
Distribuição Parâmetros Características Aplicabilidade
Grande variabilidade dos valores
Independência entre um valor e outro
Variância alta
Exponencial Média Muitos valores baixos e poucos valores altos
Cauda para direita
Utilizada para representar o tempo entre chegadas
sucessivas e o tempo entre falhas sucessivas
Menor valor, Quando se conhece ou se tem um bom “chute” sobre a
Triangular moda e maior Simétrica ou não moda (valor que mais ocorre), o menor valor e o maior
valor valor que podem ocorrer
Simétrica Quando a probabilidade de ocorrência de valores acima
Forma de sino da média é a mesma que valores abaixo da média
Média e
Normal Variabilidade Quando o tempo de um processo pode ser considerado a
desvio-padrão
controlada pelo desvio- soma de diversos tempos de sub-processos
padrão Processos manuais
Todos os valores no
Quando não se tem nenhuma informação sobre o
Maior valor e intervalo são
Uniforme processo ou apenas os valores limites (simulação do pior
menor valor igualmente prováveis
caso)
de ocorrer
Utilizada para a escolha de parâmetros das entidades
Valores e (por exemplo: em uma certa loja, 30% dos clientes
Apenas assume os
probabilidade realizam suas compras no balcão e 70% nas prateleiras)
Discreta valores fornecidos pelo
de ocorrência Quando se conhecem apenas “valores intermediários” da
analista
destes valores distribuição ou a porcentagem de ocorrência de alguns
valores discretos
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 31