SlideShare une entreprise Scribd logo
1  sur  21
WeOp 2014 
Marcus Vechiato - @vechiato
Agenda 
 Objetivo 
 Como pensamos em um sistema de 
monitoração ? 
 Do simples ao complexo 
 O que monitorar ? 
 O que acompanhar ? 
 Alguns números da Locaweb 
 Onde alguns se perdem 
 Automação de configurações 
 Itil e Ferramentas de ITSM 
 Abertura automática de Incidentes 
 Ferramentas já utilizadas 
 Desafios
Objetivo 
Objetivo desta apresentação é explorar 
implementações de monitoração sem me ater à 
ferramentas. 
Melhores práticas destacando o que deu certo e 
o aprendizado dos erros cometidos ao longo 
destes anos.
Como pensamos em um sistema de monitoração 
?
Como pensamos em um sistema de monitoração 
? 
 Não é apenas uma ferramenta 
 A ferramenta de monitoração é um dos 
componentes do processo 
 Processo - pode nos remeter à burocracia se 
não for efetivo
Alguns números da Locaweb 
 Equipamentos de Rede 
 Brocade / Cisco / Force10 e outros 
 ~21 mil servidores (físicos e virtuais) 
 Windows (2003/2008/2012) 
 Linux (CentOs/Redhat/Debian) 
 Oracle/MySql/Postgre/MSSQL/Mongo DB 
 VmWare/Xen 
 ~500 mil ítens/serviços monitorados a cada 
minuto 
 ~17 mil incidentes tratados por mês
Do simples ao complexo 
 Tenha claro quais são suas maiores dores pra 
definir seus objetivos 
 Não idealize o sistema perfeito que cobrirá 
todos os GAPs, ele não existe 
 Lembre-se: quais são seus recursos e quais as 
reais habilidades do time 
 Prefira uma implementação gradual com 
entregáveis bem definidos
O que monitorar ? 
 Infraestrutura e serviços Core – rede/no 
breaks/temperatura/DNS 
 Sistema Operacional (memória/cpu/rede 
local/disco) onde aplicável 
 Aplicações 
 Visão do usuário (requisição http/tcp) 
 Local (uso de memória/threads/processos/etc) 
 Indicadores de Negócio/erros 
 Ex.: Vendas por hora 
 Ex.: Falhas de autenticação por minuto
O que acompanhar ? 
Converter a visão de indicadores de 
infraestrutura para produtos/componentes/times 
 Dashboards para públicos diferentes 
 Operações 
○ Visão de Indicadores por times/infraestrutura 
 Ex.: MTTR de incidentes do N1 por prioridade 
 Ex.: SLA e MTTR de storage abc 
 Produtos/Negócio 
○ Visão de Indicadores comuns e específicos 
 Ex.: SLA do produto xpto 99,89% 
 Ex.: MTTR do produto xpto 0h45m
Onde alguns se perdem 
 É comum o diagnóstico: “a ferramenta xpto não 
funciona, precisamos de uma nova” 
 Intervalo entre probes de monitoração muito 
pequeno 
 Re-tentativas são importantes pra diminuir falsos 
positivos 
 Minha experiência: 
 Intervalo de probes padrão entre 1 e 5 minutos 
 Re-tentativas: 
○ 5m durante a implantação/com instabilidades conhecidas 
○ 3m em ambientes estavéis
Automação de configurações 
 A monitoração é o melhor lugar pra começar a 
gerenciar a instalação de componentes e 
configurações 
 começe com o agente de monitoração (se houver) 
 Servidor de monitoração 
○ Via API onde for possível 
○ Arquivos de configuração 
 Qual ferramenta usar pra automação ? 
 Depende do seu ambiente e conhecimento do time. 
Chef e Puppet são boas opções pra começar
ITIL e Ferramentas de ITSM 
 Ferramentas de ITSM 
 Recomendo fortemente 
 Se pretende abrir incidentes automaticamente gaste mais 
tempo avaliando qual será sua ferramenta 
 Processos são a espinha dorsal 
 Gestão de Incidentes 
 Gestão de Problemas 
 Gestão de Mudanças 
 CMDB – registro/controle é mandatório 
 Em instalações pequenas sua ferramenta de monitoração 
é seu CMDB 
 Em ambientes maiores você terá que sincronizá-lo com a 
ferramenta de ITSM
Abertura automática de incidentes 
Alguns benefícios da abertura automática em ambientes 
maiores: 
 Equaciona a ineficiência de registro manual de 
incidentes 
 Registra falhas no momento que ocorrem 
 Permite pré-definir importância de cada 
componente/serviço e em caso de falha priorizar sua 
resolução 
 Diminuir a resolução informal de incidentes sem 
registro 
 Subsídio para análise profunda do ambiente 
 Integrada à gestão de crises reduz o tempo de 
resolução e melhora a comunicação relacionada 
 Cálculo realista de OLA’s e SLA’s
Abertura automática de incidentes 
 Integração via: 
 API preferencialmente (rest/soap) 
 E-mail – com templates, a maioria das ferramentas permitem 
(só use em último caso) 
 Utilize a prioridade ao abrir o incidente para permitir a 
priorização pelo time resolvedor. Segundo Itil, de 1-5: 
 Prioridades (pense numa pirâmide): 
○ 1 e 2: tem que ser menos de 10% dos incidentes 
○ 3: 30% 
○ 4: 40% 
○ 5: 10% 
 Pra cada prioridade defina seus diferentes OLA’s de resolução. 
Lembre-se que isto vai afetar diretamente o tamanho dos times 
resolvedores
Abertura automática de incidentes 
 Re-abertura automática de incidente caso seja 
resolvido e continue falhando na monitoração 
ou falhe novamente em menos de 30m 
 Novo incidente no caso de novo alarme após 
30m do último incidente resolvido 
 Não abrir incidentes durante manutenções 
programadas
Abertura automática de incidentes 
 Fechamento automático de incidentes caso a 
monitoração normalize antes de atuação do 
time com status de “sem intervenção” permite: 
 refinar a solução e sua eficiência 
 ajuste de thresholds muito justos 
 Informações para abertura de Problemas 
 Falhas de planejamento/execução em mudanças 
 Retomar rapidamente o tratamento de incidentes 
após eventos com centenas/milhares de incidentes 
abertos em curto período de tempo
Ferramentas já utilizadas 
 Monitoração: 
 Nagios 
 Check_mk – Locaweb 
 Zabbix 
 ITSM: 
 Service Now (API) – Locaweb 
 CA – Service Desk Manager (API) – Locaweb 
 HP – Service Center (API) 
 OTRS – (API)
Desafios 
 Regra de Ouro: “Todo alarme tem que ter uma 
atuação corretiva” nem que seja ajustar os 
thresholds em caso de falso positivo. 
 Não se engane – no ínicio você vai ter muitos 
falsos positivos. É preciso persistência. 
 Se você não fechar incidentes 
automaticamente durante instabilidades, 
normalmente de rede, você vai ficar soterrado 
em incidentes e vai deixar de ver alarmes 
importantes quando a instabilidade cessar.
Desafios 
 Quem implementa a solução e quem 
administra o dia a dia ? 
 Implementação da solução: naturalmente o 
time/pessoa mais Sênior 
 Quem deve incluir as monitorações no sistema ? Se 
pensou no estagiário ou nas pessoas mais Júniores 
do time pensou errado. Também é responsabilidade 
dos mais Sêniores.
Desafios 
Mais importante que as ferramentas são as pessoas 
e aderência aos processos definidos, de ponta a 
ponta. 
Revisite os processos periodicamente para ajustar e 
evoluir de acordo com as necessidades correntes 
Se algum processo não está funcionando, mude-o. 
Não permita que ele seja abandonado ou burlado.
Perguntas ?

Contenu connexe

Tendances

Union IT Consulting - Teste de Aplicativo ATM
Union IT Consulting - Teste de Aplicativo ATMUnion IT Consulting - Teste de Aplicativo ATM
Union IT Consulting - Teste de Aplicativo ATMUnion IT
 
Introdução a testes automatizados
Introdução a testes automatizadosIntrodução a testes automatizados
Introdução a testes automatizadosThiago Ghisi
 
Workshop - Plano de Testes End to End com o Microsoft Test Manager
Workshop   - Plano de Testes End to End com o Microsoft Test ManagerWorkshop   - Plano de Testes End to End com o Microsoft Test Manager
Workshop - Plano de Testes End to End com o Microsoft Test ManagerAlan Carlos
 
Testes Automatizados de Software
Testes Automatizados de SoftwareTestes Automatizados de Software
Testes Automatizados de SoftwareMaurício Aniche
 
TDD com Código Legado - "Atualizado"
TDD com Código Legado - "Atualizado"TDD com Código Legado - "Atualizado"
TDD com Código Legado - "Atualizado"Cesar Romero
 
Desenvolvimento orientado a testes - TDD
Desenvolvimento orientado a testes - TDDDesenvolvimento orientado a testes - TDD
Desenvolvimento orientado a testes - TDDwashingtonlslima
 
Tecnicas Para Planejamento E Execucao De Testes De Software
Tecnicas Para Planejamento E Execucao De Testes De SoftwareTecnicas Para Planejamento E Execucao De Testes De Software
Tecnicas Para Planejamento E Execucao De Testes De Softwaremarthahuback
 

Tendances (7)

Union IT Consulting - Teste de Aplicativo ATM
Union IT Consulting - Teste de Aplicativo ATMUnion IT Consulting - Teste de Aplicativo ATM
Union IT Consulting - Teste de Aplicativo ATM
 
Introdução a testes automatizados
Introdução a testes automatizadosIntrodução a testes automatizados
Introdução a testes automatizados
 
Workshop - Plano de Testes End to End com o Microsoft Test Manager
Workshop   - Plano de Testes End to End com o Microsoft Test ManagerWorkshop   - Plano de Testes End to End com o Microsoft Test Manager
Workshop - Plano de Testes End to End com o Microsoft Test Manager
 
Testes Automatizados de Software
Testes Automatizados de SoftwareTestes Automatizados de Software
Testes Automatizados de Software
 
TDD com Código Legado - "Atualizado"
TDD com Código Legado - "Atualizado"TDD com Código Legado - "Atualizado"
TDD com Código Legado - "Atualizado"
 
Desenvolvimento orientado a testes - TDD
Desenvolvimento orientado a testes - TDDDesenvolvimento orientado a testes - TDD
Desenvolvimento orientado a testes - TDD
 
Tecnicas Para Planejamento E Execucao De Testes De Software
Tecnicas Para Planejamento E Execucao De Testes De SoftwareTecnicas Para Planejamento E Execucao De Testes De Software
Tecnicas Para Planejamento E Execucao De Testes De Software
 

En vedette

Trastórnos por déficit de atención e hiperactividad
Trastórnos por déficit de atención e hiperactividadTrastórnos por déficit de atención e hiperactividad
Trastórnos por déficit de atención e hiperactividadAndrés Dante Podestá
 
After the draft
After the draftAfter the draft
After the draftLeslieAl
 
Tics
TicsTics
Ticsmile5
 
Psicanalise,filosofia e ciencia no discurso freudiano valeria ghisi
Psicanalise,filosofia e ciencia no discurso freudiano   valeria  ghisiPsicanalise,filosofia e ciencia no discurso freudiano   valeria  ghisi
Psicanalise,filosofia e ciencia no discurso freudiano valeria ghisiMarcos Silvabh
 
Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013
Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013
Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013citacoesdosprojetosdeotavioluizmachado
 
Código de ética versão dez-08
Código de ética   versão dez-08Código de ética   versão dez-08
Código de ética versão dez-08Débora Müller
 
Concepto de empresa final1
Concepto de empresa final1Concepto de empresa final1
Concepto de empresa final1Claudia Valbuena
 
Planejamento páscoa simone helen drumond
Planejamento páscoa simone helen drumondPlanejamento páscoa simone helen drumond
Planejamento páscoa simone helen drumondSimoneHelenDrumond
 
Projeto páscoa cmei2009 s imone drumond
Projeto páscoa cmei2009 s imone drumondProjeto páscoa cmei2009 s imone drumond
Projeto páscoa cmei2009 s imone drumondSimoneHelenDrumond
 
Slide projeto de leitura
Slide projeto de leituraSlide projeto de leitura
Slide projeto de leituraClaudia Anjos
 
Unit 2 3 1 Costs Of Production
Unit 2 3 1 Costs Of ProductionUnit 2 3 1 Costs Of Production
Unit 2 3 1 Costs Of ProductionCorey Topf
 
Int ingsist f01
Int ingsist f01Int ingsist f01
Int ingsist f01osbbarr1
 
Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...
Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...
Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...Aldeir Coronell
 
áSia oriente medio e meridonal
áSia oriente medio e meridonaláSia oriente medio e meridonal
áSia oriente medio e meridonalFernanda Lopes
 

En vedette (20)

Trastórnos por déficit de atención e hiperactividad
Trastórnos por déficit de atención e hiperactividadTrastórnos por déficit de atención e hiperactividad
Trastórnos por déficit de atención e hiperactividad
 
After the draft
After the draftAfter the draft
After the draft
 
Tics
TicsTics
Tics
 
Psicanalise,filosofia e ciencia no discurso freudiano valeria ghisi
Psicanalise,filosofia e ciencia no discurso freudiano   valeria  ghisiPsicanalise,filosofia e ciencia no discurso freudiano   valeria  ghisi
Psicanalise,filosofia e ciencia no discurso freudiano valeria ghisi
 
Tese de edleusa nery garrido na unicamp em 2012
Tese de edleusa nery garrido na unicamp em 2012Tese de edleusa nery garrido na unicamp em 2012
Tese de edleusa nery garrido na unicamp em 2012
 
Artigo de liliane sayegh no iii seminário int urbicentros ba 2012
Artigo de liliane sayegh no iii seminário int urbicentros ba 2012Artigo de liliane sayegh no iii seminário int urbicentros ba 2012
Artigo de liliane sayegh no iii seminário int urbicentros ba 2012
 
Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013
Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013
Tcc de priscila alves rodrigues nas ciências sociais da ufrgs em 2013
 
Código de ética versão dez-08
Código de ética   versão dez-08Código de ética   versão dez-08
Código de ética versão dez-08
 
Concepto de empresa final1
Concepto de empresa final1Concepto de empresa final1
Concepto de empresa final1
 
Planejamento páscoa simone helen drumond
Planejamento páscoa simone helen drumondPlanejamento páscoa simone helen drumond
Planejamento páscoa simone helen drumond
 
Revista psicologica
Revista psicologicaRevista psicologica
Revista psicologica
 
Projeto páscoa cmei2009 s imone drumond
Projeto páscoa cmei2009 s imone drumondProjeto páscoa cmei2009 s imone drumond
Projeto páscoa cmei2009 s imone drumond
 
Blog
BlogBlog
Blog
 
Slide projeto de leitura
Slide projeto de leituraSlide projeto de leitura
Slide projeto de leitura
 
Unit 2 3 1 Costs Of Production
Unit 2 3 1 Costs Of ProductionUnit 2 3 1 Costs Of Production
Unit 2 3 1 Costs Of Production
 
Unit 2
Unit 2Unit 2
Unit 2
 
Observación
ObservaciónObservación
Observación
 
Int ingsist f01
Int ingsist f01Int ingsist f01
Int ingsist f01
 
Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...
Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...
Mi proyecto profesional ii aldeir coronell villalobos-1096229417-semestre i-l...
 
áSia oriente medio e meridonal
áSia oriente medio e meridonaláSia oriente medio e meridonal
áSia oriente medio e meridonal
 

Similaire à "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

SRE - Engenharia de confiabilidade de sites 4
SRE - Engenharia de confiabilidade de sites 4SRE - Engenharia de confiabilidade de sites 4
SRE - Engenharia de confiabilidade de sites 4Fabricio Goncalves
 
Principais conceitos em testes de software
Principais conceitos em testes de softwarePrincipais conceitos em testes de software
Principais conceitos em testes de softwareJoyce Bastos
 
[GUTS-RS] Evento julho 2017 - Como iniciar os testes de performance em uma a...
[GUTS-RS] Evento julho 2017 -  Como iniciar os testes de performance em uma a...[GUTS-RS] Evento julho 2017 -  Como iniciar os testes de performance em uma a...
[GUTS-RS] Evento julho 2017 - Como iniciar os testes de performance em uma a...GUTS-RS
 
ALM Summit - DevOps - VSALM e System Center Um Casamento de Sucesso
ALM Summit - DevOps - VSALM e System Center Um Casamento de SucessoALM Summit - DevOps - VSALM e System Center Um Casamento de Sucesso
ALM Summit - DevOps - VSALM e System Center Um Casamento de SucessoAlan Carlos
 
Prevenção e Recuperação de Falhas.pptx
Prevenção e Recuperação de Falhas.pptxPrevenção e Recuperação de Falhas.pptx
Prevenção e Recuperação de Falhas.pptxcarlosCavalcante58
 
Apresentacao log
Apresentacao logApresentacao log
Apresentacao logpedrohfsd
 
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...Joao Galdino Mello de Souza
 
Palestra GUTS - Viabilidade da Automacao Teste Software e Demo QTP
Palestra GUTS - Viabilidade da Automacao Teste Software e Demo QTPPalestra GUTS - Viabilidade da Automacao Teste Software e Demo QTP
Palestra GUTS - Viabilidade da Automacao Teste Software e Demo QTPPriscila Coelho S. Blauth
 
Monitoramento: logs como elementos de primeira ordem
Monitoramento: logs como elementos de primeira ordemMonitoramento: logs como elementos de primeira ordem
Monitoramento: logs como elementos de primeira ordemThaisa Silva
 
Automação de testes para equipes agile
Automação de testes para equipes agileAutomação de testes para equipes agile
Automação de testes para equipes agileAlini Rebonatto
 
[GUTS-RS] Testes de Performance
 [GUTS-RS] Testes de Performance [GUTS-RS] Testes de Performance
[GUTS-RS] Testes de PerformanceGUTS-RS
 
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan SeidlTI Safe
 
Introdução a automação de testes - 5º Congresso Online de TI
Introdução a automação de testes - 5º Congresso Online de TIIntrodução a automação de testes - 5º Congresso Online de TI
Introdução a automação de testes - 5º Congresso Online de TIRafael Amaral
 

Similaire à "Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014 (20)

SRE - Engenharia de confiabilidade de sites 4
SRE - Engenharia de confiabilidade de sites 4SRE - Engenharia de confiabilidade de sites 4
SRE - Engenharia de confiabilidade de sites 4
 
Principais conceitos em testes de software
Principais conceitos em testes de softwarePrincipais conceitos em testes de software
Principais conceitos em testes de software
 
[GUTS-RS] Evento julho 2017 - Como iniciar os testes de performance em uma a...
[GUTS-RS] Evento julho 2017 -  Como iniciar os testes de performance em uma a...[GUTS-RS] Evento julho 2017 -  Como iniciar os testes de performance em uma a...
[GUTS-RS] Evento julho 2017 - Como iniciar os testes de performance em uma a...
 
ALM Summit - DevOps - VSALM e System Center Um Casamento de Sucesso
ALM Summit - DevOps - VSALM e System Center Um Casamento de SucessoALM Summit - DevOps - VSALM e System Center Um Casamento de Sucesso
ALM Summit - DevOps - VSALM e System Center Um Casamento de Sucesso
 
Prevenção e Recuperação de Falhas.pptx
Prevenção e Recuperação de Falhas.pptxPrevenção e Recuperação de Falhas.pptx
Prevenção e Recuperação de Falhas.pptx
 
pentester 2.pdf
pentester 2.pdfpentester 2.pdf
pentester 2.pdf
 
Apresentacao log
Apresentacao logApresentacao log
Apresentacao log
 
Tutorial sobre itil
Tutorial sobre itilTutorial sobre itil
Tutorial sobre itil
 
Teste de software - Conhecendo e Aplicando
Teste de software - Conhecendo e AplicandoTeste de software - Conhecendo e Aplicando
Teste de software - Conhecendo e Aplicando
 
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
 
eXtreme Programming
eXtreme ProgrammingeXtreme Programming
eXtreme Programming
 
Palestra GUTS - Viabilidade da Automacao Teste Software e Demo QTP
Palestra GUTS - Viabilidade da Automacao Teste Software e Demo QTPPalestra GUTS - Viabilidade da Automacao Teste Software e Demo QTP
Palestra GUTS - Viabilidade da Automacao Teste Software e Demo QTP
 
Monitoramento: logs como elementos de primeira ordem
Monitoramento: logs como elementos de primeira ordemMonitoramento: logs como elementos de primeira ordem
Monitoramento: logs como elementos de primeira ordem
 
Automação de testes para equipes agile
Automação de testes para equipes agileAutomação de testes para equipes agile
Automação de testes para equipes agile
 
Dba Testes Gerentes B2
Dba Testes Gerentes B2Dba Testes Gerentes B2
Dba Testes Gerentes B2
 
[GUTS-RS] Testes de Performance
 [GUTS-RS] Testes de Performance [GUTS-RS] Testes de Performance
[GUTS-RS] Testes de Performance
 
Overview de QA
Overview de QA Overview de QA
Overview de QA
 
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
 
Apresentacao dev ops
Apresentacao dev opsApresentacao dev ops
Apresentacao dev ops
 
Introdução a automação de testes - 5º Congresso Online de TI
Introdução a automação de testes - 5º Congresso Online de TIIntrodução a automação de testes - 5º Congresso Online de TI
Introdução a automação de testes - 5º Congresso Online de TI
 

"Monitoração - muito além do sistema operacional" - Marcus Vechiato (Locaweb), WeOp - The Operations Summit 2014

  • 1. WeOp 2014 Marcus Vechiato - @vechiato
  • 2. Agenda  Objetivo  Como pensamos em um sistema de monitoração ?  Do simples ao complexo  O que monitorar ?  O que acompanhar ?  Alguns números da Locaweb  Onde alguns se perdem  Automação de configurações  Itil e Ferramentas de ITSM  Abertura automática de Incidentes  Ferramentas já utilizadas  Desafios
  • 3. Objetivo Objetivo desta apresentação é explorar implementações de monitoração sem me ater à ferramentas. Melhores práticas destacando o que deu certo e o aprendizado dos erros cometidos ao longo destes anos.
  • 4. Como pensamos em um sistema de monitoração ?
  • 5. Como pensamos em um sistema de monitoração ?  Não é apenas uma ferramenta  A ferramenta de monitoração é um dos componentes do processo  Processo - pode nos remeter à burocracia se não for efetivo
  • 6. Alguns números da Locaweb  Equipamentos de Rede  Brocade / Cisco / Force10 e outros  ~21 mil servidores (físicos e virtuais)  Windows (2003/2008/2012)  Linux (CentOs/Redhat/Debian)  Oracle/MySql/Postgre/MSSQL/Mongo DB  VmWare/Xen  ~500 mil ítens/serviços monitorados a cada minuto  ~17 mil incidentes tratados por mês
  • 7. Do simples ao complexo  Tenha claro quais são suas maiores dores pra definir seus objetivos  Não idealize o sistema perfeito que cobrirá todos os GAPs, ele não existe  Lembre-se: quais são seus recursos e quais as reais habilidades do time  Prefira uma implementação gradual com entregáveis bem definidos
  • 8. O que monitorar ?  Infraestrutura e serviços Core – rede/no breaks/temperatura/DNS  Sistema Operacional (memória/cpu/rede local/disco) onde aplicável  Aplicações  Visão do usuário (requisição http/tcp)  Local (uso de memória/threads/processos/etc)  Indicadores de Negócio/erros  Ex.: Vendas por hora  Ex.: Falhas de autenticação por minuto
  • 9. O que acompanhar ? Converter a visão de indicadores de infraestrutura para produtos/componentes/times  Dashboards para públicos diferentes  Operações ○ Visão de Indicadores por times/infraestrutura  Ex.: MTTR de incidentes do N1 por prioridade  Ex.: SLA e MTTR de storage abc  Produtos/Negócio ○ Visão de Indicadores comuns e específicos  Ex.: SLA do produto xpto 99,89%  Ex.: MTTR do produto xpto 0h45m
  • 10. Onde alguns se perdem  É comum o diagnóstico: “a ferramenta xpto não funciona, precisamos de uma nova”  Intervalo entre probes de monitoração muito pequeno  Re-tentativas são importantes pra diminuir falsos positivos  Minha experiência:  Intervalo de probes padrão entre 1 e 5 minutos  Re-tentativas: ○ 5m durante a implantação/com instabilidades conhecidas ○ 3m em ambientes estavéis
  • 11. Automação de configurações  A monitoração é o melhor lugar pra começar a gerenciar a instalação de componentes e configurações  começe com o agente de monitoração (se houver)  Servidor de monitoração ○ Via API onde for possível ○ Arquivos de configuração  Qual ferramenta usar pra automação ?  Depende do seu ambiente e conhecimento do time. Chef e Puppet são boas opções pra começar
  • 12. ITIL e Ferramentas de ITSM  Ferramentas de ITSM  Recomendo fortemente  Se pretende abrir incidentes automaticamente gaste mais tempo avaliando qual será sua ferramenta  Processos são a espinha dorsal  Gestão de Incidentes  Gestão de Problemas  Gestão de Mudanças  CMDB – registro/controle é mandatório  Em instalações pequenas sua ferramenta de monitoração é seu CMDB  Em ambientes maiores você terá que sincronizá-lo com a ferramenta de ITSM
  • 13. Abertura automática de incidentes Alguns benefícios da abertura automática em ambientes maiores:  Equaciona a ineficiência de registro manual de incidentes  Registra falhas no momento que ocorrem  Permite pré-definir importância de cada componente/serviço e em caso de falha priorizar sua resolução  Diminuir a resolução informal de incidentes sem registro  Subsídio para análise profunda do ambiente  Integrada à gestão de crises reduz o tempo de resolução e melhora a comunicação relacionada  Cálculo realista de OLA’s e SLA’s
  • 14. Abertura automática de incidentes  Integração via:  API preferencialmente (rest/soap)  E-mail – com templates, a maioria das ferramentas permitem (só use em último caso)  Utilize a prioridade ao abrir o incidente para permitir a priorização pelo time resolvedor. Segundo Itil, de 1-5:  Prioridades (pense numa pirâmide): ○ 1 e 2: tem que ser menos de 10% dos incidentes ○ 3: 30% ○ 4: 40% ○ 5: 10%  Pra cada prioridade defina seus diferentes OLA’s de resolução. Lembre-se que isto vai afetar diretamente o tamanho dos times resolvedores
  • 15. Abertura automática de incidentes  Re-abertura automática de incidente caso seja resolvido e continue falhando na monitoração ou falhe novamente em menos de 30m  Novo incidente no caso de novo alarme após 30m do último incidente resolvido  Não abrir incidentes durante manutenções programadas
  • 16. Abertura automática de incidentes  Fechamento automático de incidentes caso a monitoração normalize antes de atuação do time com status de “sem intervenção” permite:  refinar a solução e sua eficiência  ajuste de thresholds muito justos  Informações para abertura de Problemas  Falhas de planejamento/execução em mudanças  Retomar rapidamente o tratamento de incidentes após eventos com centenas/milhares de incidentes abertos em curto período de tempo
  • 17. Ferramentas já utilizadas  Monitoração:  Nagios  Check_mk – Locaweb  Zabbix  ITSM:  Service Now (API) – Locaweb  CA – Service Desk Manager (API) – Locaweb  HP – Service Center (API)  OTRS – (API)
  • 18. Desafios  Regra de Ouro: “Todo alarme tem que ter uma atuação corretiva” nem que seja ajustar os thresholds em caso de falso positivo.  Não se engane – no ínicio você vai ter muitos falsos positivos. É preciso persistência.  Se você não fechar incidentes automaticamente durante instabilidades, normalmente de rede, você vai ficar soterrado em incidentes e vai deixar de ver alarmes importantes quando a instabilidade cessar.
  • 19. Desafios  Quem implementa a solução e quem administra o dia a dia ?  Implementação da solução: naturalmente o time/pessoa mais Sênior  Quem deve incluir as monitorações no sistema ? Se pensou no estagiário ou nas pessoas mais Júniores do time pensou errado. Também é responsabilidade dos mais Sêniores.
  • 20. Desafios Mais importante que as ferramentas são as pessoas e aderência aos processos definidos, de ponta a ponta. Revisite os processos periodicamente para ajustar e evoluir de acordo com as necessidades correntes Se algum processo não está funcionando, mude-o. Não permita que ele seja abandonado ou burlado.