Getting Data In
27 Mars 2018
Stéphane Lapie | Senior Sales Engineer
During the course of this presentation, we may make forward-looking statements regarding future events or
the expected performance of the company. We caution you that such statements reflect our current
expectations and estimates based on factors currently known to us and that actual events or results could
differ materially. For important factors that may cause actual results to differ from those contained in our
forward-looking statements, please review our filings with the SEC.
The forward-looking statements made in this presentation are being made as of the time and date of its live
presentation. If reviewed after its live presentation, this presentation may not contain current or accurate
information. We do not assume any obligation to update any forward looking statements we may make. In
addition, any information about our roadmap outlines our general product direction and is subject to change
at any time without notice. It is for informational purposes only and shall not be incorporated into any contract
or other commitment. Splunk undertakes no obligation either to develop the features or functionality
described or to include any such feature or functionality in a future release.
Splunk, Splunk>, Listen to Your Data, The Engine for Machine Data, Splunk Cloud, Splunk Light and SPL are trademarks and registered trademarks of Splunk Inc. in
the United States and other countries. All other brand names, product names, or trademarks belong to their respective owners. ©2018 Splunk Inc. All rights reserved.
Forward-Looking Statements
© 2018 SPLUNK INC.
1. Architecture de collecte
2. Apps et Technology Add-ons
3. Démos / Exemples
4. Bonnes Pratiques
5. Ressources & Questions
Sujets de
discussion :
Architecture
de collecte
Search Heads
Interface graphique
Forwarders
collecte et transport
Indexers
indexation et calculs
Charge de travail et calculs distribués
Collecte répartie et flux sécurisés
+ de données
+ d’utilisateurs
+ de sources
Sans Agent
Architecture de base
Comment Splunk fonctionne, vu de haut
Qu’est-ce que Splunk peut ingérer ?
Exemples de Sources en Entreprise
Syslog
TCP/UDP
Event Logs,
Active Directory, OS Stats
Unix, Linux and Windows hosts
Universal Forwarder
Syslog Hosts
and Network Devices
Local File Monitoring
Universal Forwarder
Aggregation
host
Windows
Aggregated / API Data
Sources
Pre-filtering, API subscriptions
Heavy Forwarder
Mainframes*nix
Wire Data
Splunk Stream
Universal Forwarder or
HTTP Event Collector
DevOps, IoT,
Containers
HTTP Event Collector
(Agentless)
shell
API
perf
Données de Sources Distantes
• L’Universal Forwarder collecte des données locales pour les envoyer vers un ou
plusieurs Indexers
Extensible
• Des Milliers de Universal Forwarders peuvent être déployés avec très peu
d’impacte sur le réseau et la performance
Nombreuses Plateformes Supportées
• Disponible pour différents systèmes d’exploitation et architectures processeurs.
Empreinte minimale sur les ressources
Splunk Universal Forwarder
Distribution distincte :
https://www.splunk.com/en_us/download/universal-forwarder.html
Egalement pour des Sources Distantes
• Généralement utilisé pour agréger la donnée avant des firewalls, du routage et/ou
filtrage, modular inputs ou la réception d’appels REST (plus d’infos après)
“Nœud de Collecte” pour les appels API et scripts
• Pour les technologies uniquement accessibles par API et non par une installation
locale (AWS, Azure, vmware, …)
Support limité aux même plateformes que Splunk Enterprise
• Autonome, le Heavy Forwarder est généralement sur une machine virtuelle
Quand utiliser un Heavy Forwarder ?
Même distribution que pour les Rôles Principaux
Directement depuis des Applications
• Intégration facile, sécurisée (tokens) et “load-balancer-friendly”, pour envoyer des
données directement depuis des applications vers Splunk (JSON ou RAW)
Sans Agent
• Les données peuvent être envoyées directement aux Indexers, sans Forwarders
Supporté par de nombreuses plateformes de développement
• Bibliothèques et modules disponibles pour un grand nombre de technologies
(Docker, AWS Lambda, Java, C#, …) et sinon par API REST directement
Splunk HTTP Event Collector (HEC)
Une nouvelle manière de collecter à très grande échelle
Apps et Add-ons
Collecter avec des Apps & Add-Ons
• La première chose à regarder !
Méthode propre et pré-packagée
• App = solution complète
Composée d’un ou plusieurs "Technology Add-on"
• Add-on
o Abstraction de la collecte (log file, API, scripted
input, HEC)
o Contient généralement l’extraction de champs
(schémas à la volée)
o Contient les fichiers de configuration
(props/transforms) et d’éventuels scripts ou outils
de collecte
1600+ apps et add-ons:
https://splunkbase.com/
Où trouver les Apps ? Sur Splunkbase !
https://splunkbase.com/
Communauté Importante
dev.splunk.com
75,000+ questions
and answers
1,600+ apps
Local User Groups and
SplunkLive! events
http://community.splunk.comhttp://answers.splunk.comhttp://splunkbase.com http://dev.splunk.com
Getting Data In:
Démos
▶ Utilisation de l’interface “Prévisualisation de Données”
• Chargement d’un Fichier (vous devriez l’avoir fait lors de la session “Getting Started”)
▶ Installation et utilisation d’Apps et Add-ons
▶ Ecoute en continu de Fichiers (avec l’Universal Forwarder)
• Sur un répertoire et plusieurs fichiers en temps réel
• Architecture de collecte pour des données issues du protocole Syslog
Ce que vous aller voir
Getting Data In:
Bonnes Pratiques
Composants d’un Déploiement Réussi
Architecture
&
Infrastructure
Operations &
Supporting
Tools
Staffing
Getting
Data In
User
Onboarding
Inform
▶ Architecte
• Design et optimisation de la plateforme Splunk; distribution et suivi d’échelle
▶ Administrateur
• Configuration et maintient en condition de l’infrastructure Splunk
▶ "Search Expert" ou "Ninja"
▶ Développeur d’Apps
▶ Expert Métier
• Interprétation des données, classification et enrichissement (contexte)
• Travaille avec l’admin pour ajouter les données
Responsabilités PrincipalesArch
& Infra
Ops &
Tools
Staffing
Getting
Data In
User
Onboarding
Inform
▶ Etablir le processus d’ajout de
nouvelles sources et Apps
▶ Industrialisation et documentation
▶ Interview des clients et suivi
▶ Intégration à l’offre de service
Embarquer de Nouvelles Sources
Nouvelles Demandes
❑ Obtenir un extrait des données
❑ Avoir une description des données
▪ timestamp | timezone ■ simple/multi-ligne
▪ sourcetype ■ champs importants
❑ Description succincte du/des cas d’usages
▪ recherches | alertes | rapports | dashboards
❑ Quelle méthode de collecte ?
▪ UF | HTTP | syslog | API
❑ Quelle période de rétention ?
❑ Quelles permissions ?
❑ Association au “Common information Model”
▪ Technology Add-on disponible ?
❑ Validation
Arch
& Infra
Ops &
Tools
StaffingGetting
Data In
User
Onboarding
Inform
Staffing
Mesdames et Messieurs, l’embarquement va commencer !
Check-list : 6 points à vérifier à l’indexation
Source
Découpage
des
événements
Host
Index
SourcetypeHorodatage
▶ Rassembler le plus de détails possible :
• D’où proviennes les données ? Comment les collecter avec Splunk ?
• Quels groupes d’utilisateurs vont en avoir besoin ? Quelles permissions ?
• Etablir le volume d’indexation et la période de rétention requise
• Qui est le propriétaire ou expert de cette donnée ?
▶ Faites un plan :
• Obtenir des extraits “suffisants” pour tester
• Assigner un sourcetype existant ou en créer un nouveau
• Identifier les canvas et models qui peuvent s’appliquer (CIM compliance)
Zoom sur les Nouvelles Demandes
▶ Pour une même source identifiez les différents sourcetypes
• Attention : Syslog ce n’est pas un sourcetype !
• (plus de détails dans les slides suivants)
▶ Ne pas réinventer la roue : Utilisez les Apps & Add-on de splunkbase.com
▶ Utiliser un index “test” pour vérifier les paramètres d’indexation
• Interface de Prévisualisation
• Configuration du sourcetype
Zoom sur les Nouvelles Demandes
(suite)
▶ Trouver les éventuels problèmes d’indexation en amont
▶ ”Le tester c’est l’adopter!”
• Vérifier le bon découpage des événements (event-breaking)
• La reconnaissance du timestamp et l’horodatage correct (avec le bon fuseau horaire)
• L’anonymisation de certaines informations
▶ Dans la majorité des cas, vous pouvez tout faire sans toucher au fichier
props.conf
Prévisualisation = Succès
Mais si vous devez vraiment le faire…
Pensez toujours à ces quelques paramètres dans props.conf
[SL17]
TIME_PREFIX = ^
TIME_FORMAT = %Y-%m-%d %H:%M:%S
MAX_TIMESTAMP_LOOKAHEAD = 19
SHOULD_LINEMERGE = False
LINE_BREAKER = ([nr]+)
TRUNCATE = 10000
▶ Le “Common Information Model” structure la donnée, sans toucher à
l’événement brut
▶ C’est une convention de nommage
▶ Normaliser et catégoriser les informations permet de s’abstraire de la source et
de faire des analyses “agnostiques”
▶ Les données “CIM-compliant” peuvent être utilisées par des Apps existantes
(ES, PCI, Web Proxies, …)
Qu’est-ce que le CIM, et pourquoi c’est utile ?
▶ Syslog est un protocole, pas un vrai sourcetype
• Ce protocole embarque généralement plusieurs sourcetypes
▶ Quand il y a beaucoup de flux différents, il est préférable de les recevoir en amont de Splunk, sur
un serveur dédié (syslog-ng, rsyslog, …)
• Utilisez un UF ou HEC pour transporter les donnés vers Splunk :
 Pour assurer une bonne répartition de la charge et du stockage
 Pour sécuriser les flux et maitriser la bande passante
 Ségréguer les composants en cas d’incident
▶ Voir : https://www.splunk.com/blog/2017/03/30/syslog-ng-and-hec-scalable-aggregated-data-
collection-in-splunk.html pour plus d’infos
Réfléxion à propos de Syslog
Pour aller plus loin
https://splunkbase.com/app/2962/
▶ Pour collecter par REST API, Scripts ou Modular Inputs
▶ Interface guidée et certification de vos Add-ons
• De l’ajout de données jusqu’à la configuration des schémas et l’association au CIM
Add-on Builder!
▶ Videos!
https://www.splunk.com/view/SP-CAAAGB6
▶ E-Learning
https://www.splunk.com/view/SP-CAAAPX9
▶ Getting Data In – Splunk Docs
http://docs.splunk.com/Documentation/Splunk/latest/Data/WhatSplunkcanmonitor
▶ Getting Data In – Dev Manual (très exhaustif)
http://dev.splunk.com/view/dev-guide/SP-CAAAE3A
▶ .conf Sessions
http://conf.splunk.com/sessions/2017-sessions.html
▶ GOOGLE ;)
Où aller pour en apprendre plus ?
.conf18:
Monday, October 1 – Thursday, October 4
Splunk University:
Saturday, September 29 – Monday, October 1
ORLANDO, FLORIDA
Walt Disney World Swan and Dolphin Resort
Questions
© 2018 SPLUNK INC.
N’oubliez pas de noter cette session sur
surveymonkey.com/r/SLParis2018
Merci !

SplunkLive! Paris 2018: Getting Data In

  • 1.
    Getting Data In 27Mars 2018 Stéphane Lapie | Senior Sales Engineer
  • 2.
    During the courseof this presentation, we may make forward-looking statements regarding future events or the expected performance of the company. We caution you that such statements reflect our current expectations and estimates based on factors currently known to us and that actual events or results could differ materially. For important factors that may cause actual results to differ from those contained in our forward-looking statements, please review our filings with the SEC. The forward-looking statements made in this presentation are being made as of the time and date of its live presentation. If reviewed after its live presentation, this presentation may not contain current or accurate information. We do not assume any obligation to update any forward looking statements we may make. In addition, any information about our roadmap outlines our general product direction and is subject to change at any time without notice. It is for informational purposes only and shall not be incorporated into any contract or other commitment. Splunk undertakes no obligation either to develop the features or functionality described or to include any such feature or functionality in a future release. Splunk, Splunk>, Listen to Your Data, The Engine for Machine Data, Splunk Cloud, Splunk Light and SPL are trademarks and registered trademarks of Splunk Inc. in the United States and other countries. All other brand names, product names, or trademarks belong to their respective owners. ©2018 Splunk Inc. All rights reserved. Forward-Looking Statements
  • 3.
    © 2018 SPLUNKINC. 1. Architecture de collecte 2. Apps et Technology Add-ons 3. Démos / Exemples 4. Bonnes Pratiques 5. Ressources & Questions Sujets de discussion :
  • 4.
  • 6.
    Search Heads Interface graphique Forwarders collecteet transport Indexers indexation et calculs Charge de travail et calculs distribués Collecte répartie et flux sécurisés + de données + d’utilisateurs + de sources Sans Agent Architecture de base Comment Splunk fonctionne, vu de haut
  • 7.
    Qu’est-ce que Splunkpeut ingérer ? Exemples de Sources en Entreprise Syslog TCP/UDP Event Logs, Active Directory, OS Stats Unix, Linux and Windows hosts Universal Forwarder Syslog Hosts and Network Devices Local File Monitoring Universal Forwarder Aggregation host Windows Aggregated / API Data Sources Pre-filtering, API subscriptions Heavy Forwarder Mainframes*nix Wire Data Splunk Stream Universal Forwarder or HTTP Event Collector DevOps, IoT, Containers HTTP Event Collector (Agentless) shell API perf
  • 8.
    Données de SourcesDistantes • L’Universal Forwarder collecte des données locales pour les envoyer vers un ou plusieurs Indexers Extensible • Des Milliers de Universal Forwarders peuvent être déployés avec très peu d’impacte sur le réseau et la performance Nombreuses Plateformes Supportées • Disponible pour différents systèmes d’exploitation et architectures processeurs. Empreinte minimale sur les ressources Splunk Universal Forwarder Distribution distincte : https://www.splunk.com/en_us/download/universal-forwarder.html
  • 9.
    Egalement pour desSources Distantes • Généralement utilisé pour agréger la donnée avant des firewalls, du routage et/ou filtrage, modular inputs ou la réception d’appels REST (plus d’infos après) “Nœud de Collecte” pour les appels API et scripts • Pour les technologies uniquement accessibles par API et non par une installation locale (AWS, Azure, vmware, …) Support limité aux même plateformes que Splunk Enterprise • Autonome, le Heavy Forwarder est généralement sur une machine virtuelle Quand utiliser un Heavy Forwarder ? Même distribution que pour les Rôles Principaux
  • 10.
    Directement depuis desApplications • Intégration facile, sécurisée (tokens) et “load-balancer-friendly”, pour envoyer des données directement depuis des applications vers Splunk (JSON ou RAW) Sans Agent • Les données peuvent être envoyées directement aux Indexers, sans Forwarders Supporté par de nombreuses plateformes de développement • Bibliothèques et modules disponibles pour un grand nombre de technologies (Docker, AWS Lambda, Java, C#, …) et sinon par API REST directement Splunk HTTP Event Collector (HEC) Une nouvelle manière de collecter à très grande échelle
  • 11.
  • 12.
    Collecter avec desApps & Add-Ons • La première chose à regarder ! Méthode propre et pré-packagée • App = solution complète Composée d’un ou plusieurs "Technology Add-on" • Add-on o Abstraction de la collecte (log file, API, scripted input, HEC) o Contient généralement l’extraction de champs (schémas à la volée) o Contient les fichiers de configuration (props/transforms) et d’éventuels scripts ou outils de collecte 1600+ apps et add-ons: https://splunkbase.com/
  • 13.
    Où trouver lesApps ? Sur Splunkbase ! https://splunkbase.com/
  • 14.
    Communauté Importante dev.splunk.com 75,000+ questions andanswers 1,600+ apps Local User Groups and SplunkLive! events http://community.splunk.comhttp://answers.splunk.comhttp://splunkbase.com http://dev.splunk.com
  • 15.
  • 16.
    ▶ Utilisation del’interface “Prévisualisation de Données” • Chargement d’un Fichier (vous devriez l’avoir fait lors de la session “Getting Started”) ▶ Installation et utilisation d’Apps et Add-ons ▶ Ecoute en continu de Fichiers (avec l’Universal Forwarder) • Sur un répertoire et plusieurs fichiers en temps réel • Architecture de collecte pour des données issues du protocole Syslog Ce que vous aller voir
  • 17.
  • 18.
    Composants d’un DéploiementRéussi Architecture & Infrastructure Operations & Supporting Tools Staffing Getting Data In User Onboarding Inform
  • 19.
    ▶ Architecte • Designet optimisation de la plateforme Splunk; distribution et suivi d’échelle ▶ Administrateur • Configuration et maintient en condition de l’infrastructure Splunk ▶ "Search Expert" ou "Ninja" ▶ Développeur d’Apps ▶ Expert Métier • Interprétation des données, classification et enrichissement (contexte) • Travaille avec l’admin pour ajouter les données Responsabilités PrincipalesArch & Infra Ops & Tools Staffing Getting Data In User Onboarding Inform
  • 20.
    ▶ Etablir leprocessus d’ajout de nouvelles sources et Apps ▶ Industrialisation et documentation ▶ Interview des clients et suivi ▶ Intégration à l’offre de service Embarquer de Nouvelles Sources Nouvelles Demandes ❑ Obtenir un extrait des données ❑ Avoir une description des données ▪ timestamp | timezone ■ simple/multi-ligne ▪ sourcetype ■ champs importants ❑ Description succincte du/des cas d’usages ▪ recherches | alertes | rapports | dashboards ❑ Quelle méthode de collecte ? ▪ UF | HTTP | syslog | API ❑ Quelle période de rétention ? ❑ Quelles permissions ? ❑ Association au “Common information Model” ▪ Technology Add-on disponible ? ❑ Validation Arch & Infra Ops & Tools StaffingGetting Data In User Onboarding Inform Staffing
  • 21.
    Mesdames et Messieurs,l’embarquement va commencer ! Check-list : 6 points à vérifier à l’indexation Source Découpage des événements Host Index SourcetypeHorodatage
  • 22.
    ▶ Rassembler leplus de détails possible : • D’où proviennes les données ? Comment les collecter avec Splunk ? • Quels groupes d’utilisateurs vont en avoir besoin ? Quelles permissions ? • Etablir le volume d’indexation et la période de rétention requise • Qui est le propriétaire ou expert de cette donnée ? ▶ Faites un plan : • Obtenir des extraits “suffisants” pour tester • Assigner un sourcetype existant ou en créer un nouveau • Identifier les canvas et models qui peuvent s’appliquer (CIM compliance) Zoom sur les Nouvelles Demandes
  • 23.
    ▶ Pour unemême source identifiez les différents sourcetypes • Attention : Syslog ce n’est pas un sourcetype ! • (plus de détails dans les slides suivants) ▶ Ne pas réinventer la roue : Utilisez les Apps & Add-on de splunkbase.com ▶ Utiliser un index “test” pour vérifier les paramètres d’indexation • Interface de Prévisualisation • Configuration du sourcetype Zoom sur les Nouvelles Demandes (suite)
  • 24.
    ▶ Trouver leséventuels problèmes d’indexation en amont ▶ ”Le tester c’est l’adopter!” • Vérifier le bon découpage des événements (event-breaking) • La reconnaissance du timestamp et l’horodatage correct (avec le bon fuseau horaire) • L’anonymisation de certaines informations ▶ Dans la majorité des cas, vous pouvez tout faire sans toucher au fichier props.conf Prévisualisation = Succès
  • 25.
    Mais si vousdevez vraiment le faire… Pensez toujours à ces quelques paramètres dans props.conf [SL17] TIME_PREFIX = ^ TIME_FORMAT = %Y-%m-%d %H:%M:%S MAX_TIMESTAMP_LOOKAHEAD = 19 SHOULD_LINEMERGE = False LINE_BREAKER = ([nr]+) TRUNCATE = 10000
  • 26.
    ▶ Le “CommonInformation Model” structure la donnée, sans toucher à l’événement brut ▶ C’est une convention de nommage ▶ Normaliser et catégoriser les informations permet de s’abstraire de la source et de faire des analyses “agnostiques” ▶ Les données “CIM-compliant” peuvent être utilisées par des Apps existantes (ES, PCI, Web Proxies, …) Qu’est-ce que le CIM, et pourquoi c’est utile ?
  • 27.
    ▶ Syslog estun protocole, pas un vrai sourcetype • Ce protocole embarque généralement plusieurs sourcetypes ▶ Quand il y a beaucoup de flux différents, il est préférable de les recevoir en amont de Splunk, sur un serveur dédié (syslog-ng, rsyslog, …) • Utilisez un UF ou HEC pour transporter les donnés vers Splunk :  Pour assurer une bonne répartition de la charge et du stockage  Pour sécuriser les flux et maitriser la bande passante  Ségréguer les composants en cas d’incident ▶ Voir : https://www.splunk.com/blog/2017/03/30/syslog-ng-and-hec-scalable-aggregated-data- collection-in-splunk.html pour plus d’infos Réfléxion à propos de Syslog
  • 28.
  • 29.
    https://splunkbase.com/app/2962/ ▶ Pour collecterpar REST API, Scripts ou Modular Inputs ▶ Interface guidée et certification de vos Add-ons • De l’ajout de données jusqu’à la configuration des schémas et l’association au CIM Add-on Builder!
  • 30.
    ▶ Videos! https://www.splunk.com/view/SP-CAAAGB6 ▶ E-Learning https://www.splunk.com/view/SP-CAAAPX9 ▶Getting Data In – Splunk Docs http://docs.splunk.com/Documentation/Splunk/latest/Data/WhatSplunkcanmonitor ▶ Getting Data In – Dev Manual (très exhaustif) http://dev.splunk.com/view/dev-guide/SP-CAAAE3A ▶ .conf Sessions http://conf.splunk.com/sessions/2017-sessions.html ▶ GOOGLE ;) Où aller pour en apprendre plus ?
  • 31.
    .conf18: Monday, October 1– Thursday, October 4 Splunk University: Saturday, September 29 – Monday, October 1 ORLANDO, FLORIDA Walt Disney World Swan and Dolphin Resort
  • 32.
  • 33.
    © 2018 SPLUNKINC. N’oubliez pas de noter cette session sur surveymonkey.com/r/SLParis2018 Merci !