How to fail at benchmarking?

@pingtimeout#FailAtBenchs
Comment rater ses
benchmarks ?
Pierre Laporte
Ingénieur performances - Datastax
@pingtimeout
pierre.laporte@datastax.com

http://tiny.cc/FailAtBenchs @pingtimeout#FailAtBenchs
Agenda
• Intro
• Pourquoi cette session ?
• Comment se planter ?
• Que mesurer ?
• Comment mesurer ?
• « Coordinated Omission » ?
• Quel état d’esprit ?

@YourTwitterHandle@YourTwitterHandle@pingtimeout#FailAtBenchs
Intro

Cassandra
• NoSQL
• Scalabilité linéaire
• Toujours disponible

Datastax Enterprise (DSE)
• Plateforme complète
• Certiﬁée
• Sécurisée
• Search (Apache Solr)
• Analytics (Hadoop, Spark)
• Simplicité opérationnelle (OpsCenter)

Pourquoi ce talk ?

I have not failed,
I have just found 10,000 ways
that won't work.
- Thomas Edison

Progresser
Faire des erreurs
Trouver des solutions
Ne pas blâmer

Benchmarks

Comment se planter ?

Exemple
• Bench d’une API REST : POST /login
• 100.000 logins
• 1 utilisateur
• Temps de réponse de chaque login
• Mesure dès le premier résultat
• Une exécution (longue)
• Sur un portable de dev
• Moyenne des résultats
• Projection utilisation CPU <=> Capacité restante

Un problème ?

Caches
• « 100.000 logins d’un unique utilisateur »
• Caches CPU (L1, L2, L3, …)
• TLB
• Cache de Base de Données
• Cache Hibernate (query, L2, …)
• …

Précision d'horloge
• « Temps de réponse de chaque login »
• login ~> 5ms
• System.currentTimeMillis() ~> 1ms
• ±1 <=> ±20%
• System.nanoTime() "provides nanosecond precision, but not
necessarily nanosecond resolution »
• Source: Javadoc

Temps de chauffe
• « Mesure dès le premier résultat »
• Chargement des classes
• Proﬁling du code
• Optimisations (Inlining, compilation, élimination de locks, …)

Confiance dans les résultats
• « Une exécution (longue) »
• Bruit de fond ?
• Compétition ?
• Quelle conﬁance dans les mesures ?

• « Sur un portable de dev »
Environnement

• « Sur une seule machine »
Environnement

Métriques
• « Moyenne des résultats »

Projection de capacité
• Utilisation CPU ≈ 50%
• Capacité restante ≈ … ?

Que mesurer ?

Moyenne
• Supprimer les points gênants
• « Moyenne de deux nombres » = … ?
• Pourquoi l’utilise-t-on ?
• Est-ce sufﬁsant ?

Métriques utiles
• Histogramme
• Centiles
• 90ème
• 95ème
• 99ème
• …
• Maximum

Combien de 9 ?
• 99% ?
• 99,99% ??
• Ça dépend.
• Pour 500 utilisateurs
• 99% signiﬁe… ?

Combien de 9 ?
• Si 1.000.000 utilisateurs
• 99% signiﬁe… ?
• 10.000 utilisateurs.

Comment font les autres ?
• 5.000.000 joueurs simultanés
• 12.000.000 par jour
• 67.000.000 par mois
• Quels centiles mesurer ?

Maximum
• « Boarf, surement un timeout, on peut l’ignorer »
• Random dev devant un temps de réponse de 60s
• Acceptable ?
• Temps réel ?
• Jeux vidéo ?
• Appli mobile ?

Genèse d’un benchmark
• Une question bien spéciﬁque
• Des exigences précises
• Exemple
• Site de e-commerce
• « Avec mes 5 serveurs d’application, 20.000 articles en base,
et 1.000 clients simultanés, est-ce que la commande d’article
prend moins de 50ms en moyenne, 100ms une fois sur 10 et
300ms au pire ? »

Environnement
• « Avec mes 5 serveurs d’application, 20.000 articles en base,
et 1.000 clients simultanés, est-ce que la commande d’article
300ms au pire ? »
• POC:
• TomEE
• Glassﬁsh
• Weblogic

Charge
• « Avec mes 5 serveurs d’application, 20.000 articles en base, et
1.000 clients simultanés, est-ce que la commande d’article
300ms au pire ? »

Exigences
• « Avec mes 5 serveurs d’application, 20.000 articles en base, et
1.000 clients simultanés, est-ce que la commande d’article
prend moins de 50ms en moyenne, de 100ms une fois sur
10 et de 300ms au pire ? »

Épilogue d’un benchmark
• Réponse obtenue
• Satisfaisante… ou pas.
• Résultats Contextuels
• Environnement
• Charge
• Contraintes
• Compromis

Vérités statistiques

99ème centile en moyenne
• Application typique en 2012
• 100 « Web objects »/page
• ≈ 100 requêtes HTTP/page
• Probabilité d’éviter le 99ème centile ?
• 0.99n, sur n requêtes
• 0.99100 ≈ 36.6%

La loi Normale
• Le client dit :
• Moyenne = 100ms
• Écart type = 20ms
• Médiane = 120ms
• Maximum = 1s
• Quel est le 99% ?

Aucune idée.

Quartet d'Anscombe

Loi Normale et latence
• Le temps de réponse ne suit pas une distribution Normale.
• Dropwizard metrics :

Loi Normale et latence
• Remplacer metrics par HdrHistogram
• Plage de valeurs
• Précision
• Empreinte mémoire constante
• http://hdrhistogram.github.io/HdrHistogram/

Représentation

Puzzles

Puzzler #1
• Un problème ?

Puzzler #1 complet

Puzzler #1 - nouvel essai
• -XX:+AggressiveOpts
• Qui connaît ?
• Qu’est-ce que cela fait ?

Aggressive Opts ?
• Augmente le pool de Fixnum de 128 à … ?
• À vous de trouver
• Astuces
• set_aggressive_opts_ﬂags() dans arguments.cpp
• java -XX:+PrintFlagsFinal
• C’est presque tout.

Puzzler #2 - QCM
• Que fait ce code ?
1. Il pousse un juron
2. Il ne fait pas ce qu’on pense
3. Il bench Hotspot
4. Il crée environ 10.000 objets

Puzzler #2 - QCM
1. Il pousse un juron
2. Il ne fait pas ce qu’on pense
3. Il bench Hotspot
4. Il crée environ 10.000 objets

Puzzler #2 - solution
• Après ~10.000 itérations, le code est supprimé

Coordinated Omission

Java 8 Enterprisy REST API

CO client

Runner
• Simuler de lonnnngues pause (11 secondes)
• GC
• autre tâche bloquante
• Technique: ^Z

Récapitulatif - Timeline

Récapitulatif avant run
• Fréquence = 1 req/s
• Durée totale = 100s
• Longue pause = 11s
• Temps de réponse nominal ≈ 10ms

Attentes - Débit

Attentes - Latence

Attentes - centiles
• Calcul anticipé des centiles (en secondes)
• Max ∈ ]10; 11]
• 99% ∈ ]9; 10]
• 98% ∈ ]8; 9]
• 95% ∈ ]5; 6]
• 90% ∈ ]0; 1]

Réalité
Wait… What?

Réalité

Pourquoi ?

Réalité - Débit
100s
100ème requête

Réalité - Latence
100s
100ème requête

CO - Définition
• Interval entre les points = i
• Latence nominale << i
• Valeurs extrêmes > x
• Requêtes suivantes retardées
• Après la période néfaste

Qu’est-ce qui est mesuré ?
• 99% des bonnes requêtes
• ≠ 99% de toutes les requêtes

Une erreur fréquente
I rarely see load testers that don't
suffer from it, including common
testers used in the industry (JMeter,
Grinder, HP LoadRunner), benchmarks
(YCSB, SPECeverything, etc.), and
custom build testers I see used by
many low latency shops. » — Gil Tene

Tester le test
• Tester le testeur
• Remplacer le SUT par un noop
• Temps de réponse: 0
• Test ^Z
• Vériﬁer les hypothèses

Correction
• Connaître le temps d’envoi de chaque requête
• Utiliser ce temps comme temps de départ
• Effet:
• Faire apparaître les requêtes retardées

• Connaître l’interval entre les envois
• Utiliser HdrHistogram
• Classe Histogram
• copyCorrectedForCoordinatedOmission(…)
• recordValueWithExpectedInterval(…)

Récap

The successful man will profit
from his mistakes and try
again in a different way
- Dale Carnegie

Des résultats contextuels

Sources
• https://groups.google.com/d/msg/mechanical-sympathy/
• http://latencytipoftheday.blogspot.fr/
• http://www.websiteoptimization.com/speed/tweak/average-
number-web-objects/
• http://tylervigen.com/
• Hotspot source code

Q & A

Merci pour votre attention !

How to fail at benchmarking?

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à How to fail at benchmarking?

Similaire à How to fail at benchmarking? (20)

Plus de Pierre Laporte

Plus de Pierre Laporte (7)

Dernier

Dernier (20)

How to fail at benchmarking?