Importer 500 millions de données de MySQL vers Neo4j

Comment importer 567 273 969 épisodes vus (et plus)
de MySQL vers Neo4j 😱

BetaSeries en chiffres
• 10 ans d'activité

• 1 036 351 membres

• 16 848 séries TV

• 12 244 361 séries suivies

• 237 811 épisodes vus par jour

• 567 millions d'épisodes vus depuis 10 ans 😱😭🔫

• plus les notes, commentaires, téléchargements etc.

BetaSeries Insights
• Utiliser la richesse et le volume des données de
BetaSeries.

• Vendre ces données aux pros des médias
(producteurs, diﬀuseurs, journalistes etc.).

• Analyse d'audience en temps réel.

• Permettre des analyses et comparaisons complexes :
“ Est-ce que Game of Thrones marche mieux que
The Walking Dead chez les moins de 30 ans qui
regardent aussi Big Bang Theory ? ”

Le choix de la BDD
(source : Dilbert par Scott Adams)

Pourquoi Neo4j ?
• C'est assez simple à mettre en place, à interroger
et à maintenir (cypher 😍).

• Les bases en graphes permettent de modéliser
facilement un schéma qui évolue.

• C'est très performant quand on travaille sur des
petits sous ensembles du graphe (une série en
particulier ou un type d'audience).

• Ça s'intègre très bien avec PHP : graphaware/
neo4j-php-client

Les deux spéciﬁcités du projet
BetaSeries Insights

#1. Chaque jour des statistiques ﬁgées
sur les données depuis le début de
BetaSeries jusqu'à la journée de la veille.

Avantages
• On peut récupérer le diﬀérentiel des données une
fois par jour (via un cron).

• Une fois une statistique calculée, on peut la mettre
en cache pour la journée (on utilise un cache Redis).

• Il n'y a pas un grand besoin de performances en
écriture, puisqu'on écrit plus dans Neo4j.

• Il n'y a pas non plus besoin de performances en
lecture, puisque tout est en cache (sauf au premier
calcul du jour sur une statistique donnée).

#2. On a besoin régulièrement
d'importer le total des données de
BetaSeries.

Pourquoi ?
• BetaSeries est complexe, on peut avoir des
problèmes de ﬁabilité des données importées qui
demandent un ré-import.

• Le projet Insights est jeune et évolue vite, on doit
rajouter des statistiques régulièrement, dont des
nouveaux types de noeuds et relations.

• Il fallait bien importer les 10 ans de données une
première fois quoi qu'il arrive.

• C'est une sécurité supplémentaire de pouvoir recréer
complètement la BDD en cas de panne.

L'infrastructure de 
BetaSeries Insights

• Le serveur MySQL est répliqué sur plusieurs slaves.
• Sur le serveur physique d'Insights on retrouve un slave dédié, un
serveur Neo4j et une base Redis.

• Le slave est utilisé pour récupérer les données pendant l'import.

• Mais aussi pour récupérer des metadonnées de BetaSeries
(nom, description, images des séries etc.).

Insights V1
“Les ﬁchiers CSV : la méthode de grand-père.” — Sylvain Roussy

Insights V1
• ma connaissance de Neo4j qui se réduisait à la doc.

• l'utilisation d'une machine non dédiée et limitée en ressources.

• une approche d'export / import non appropriée au volume des données.
Le premier “Proof of Concept” d'Insights était limité par :

Exemple de données SQL
La table shows qui contient les séries TV

Export de MySQL vers CSV
• Première approche : un script
PHP par noeud ou relation qui
fait la requête SQL et qui génère
le ﬁchier CSV.

• Plus performant : directement
générer le ﬁchier CSV avec
SELECT INTO OUTFILE.

Résultat
un joli ﬁchier CSV

Importer dans Neo4j
• Ne pas oublier de renseigner la
conﬁguration du dossier d'import
dbms.directories.import=/tmp
• On utilisera Cypher avec 
LOAD CSV WITH HEADERS
• On créé le noeud Show
correspondant en faisant bien
attention aux types des données
(tout est une chaîne dans un CSV)

Même principe pour les relations
• On commence à avoir un temps
d'export plus long (60 secondes
pour 12M de lignes) et un CSV
plus lourd (190 mo)

• On peut gzip le ﬁchier pour
gagner de la place (36 mo), mais
ça prends un peu de temps.

Les ennuis commencent 😩
• On a déjà bien du mal à importer 1M
de lignes dans Neo4j (4 minutes).

• Si on utilise pas USING PERIODIC
COMMIT on explose la RAM de
Neo4j.

• On va devoir faire un import par lot
(12 imports, 1 million de lignes à la
fois).

Interlude SQL 🤔
Savez-vous comment paginer correctement une requête SQL ?

Pas avec LIMIT et OFFSET 👎
• Mettons qu'on veuille
récupérer 1 million d'épisodes
vus, à partir du 500 millionième
vu, la requête prend 18,7
secondes à s'exécuter.

• Plus la table est grosse et plus
on va avancer dans l'OFFSET,
plus la requête sera longue.

En passant par un index 👍
• En passant par un index on
passe à 95 ms !

• Il faut donc calculer les bornes
pour chaque passage du
traitement par lot.

• (on peut tricher sur les id)

Et notre import total ?! 🙌
On l'aurait presque oublié.

Neo4j import tool
Ça a un peu changé depuis, mais à l'époque c'était ça.

C'est bien, mais pas top.
• C'est pratique, on peut utiliser
presque les mêmes CSV.

• Les metadonnées doivent être dans
les headers, il faut donc changer le
header de chaque CSV.

• L'import ne peut se faire que sur
une base éteinte, il faut couper
neo4j pendant l'import.

• Pas hyper clair au niveau de la
tolérance aux fautes.

Et nos 567 millions d'épisodes vus ?
J'aurais préféré les oublier. 😭

Pas possible. ☠
• En faisant une extrapolation à partir de l'export / import des 12 millions de
relations des séries suivies...

• On arrive à 47 minutes d'export, un ﬁchier CSV de 9go (diﬃcilement
gzipable) et un import de 37,8 heures ! 😨

• Sans compter le serveur Neo4j de la V1 qui n'aurait probablement pas
tenu la charge des 567 millions de relations.

Pour réduire le volume des données à importer on
n'importe pas le détail des actions (type épisodes
vus) comme une relation, mais on dénormalise sur
une propriété countWatched du noeud Episode.
(il y a une perte d'information)

La dénormalisation sur Episode

Problème 😡
Impossible d'avoir ce genre de statistiques avec la dénormalisation.

Conclusion : Avantages du CSV
• C'est universel.

Insights V2
l'import massif des données

On veut conserver l'intégralité des
données des actions, dont la relation 
(:Person)-[:WATCH]->(:Episode)

Quand on sait pas faire…
on demande à ceux qui savent.

Amélioration de l'import journalier avec apoc
• apoc est un ensemble de
procédures pour Neo4j.

• apoc possède de nombreuses
procédures d'accès aux données
(JSON, XML et... JDBC !)

• import / export deux en un et
optimisé, parfait pour notre
export journalier.

Toujours pas sufﬁsant pour un import total…
wait for it

L'API BatchInserter
• L'API BatchInserter est le moyen le plus performant pour créer une base
de données Neo4j à partir de zéro.

• Elle est contenue dans l'API Java de Neo4j.

• Un nouveau fichier graph.db est directement créé sur le filesystem.

• On peut aussi travailler sur un fichier graph.db existant (base éteinte),
mais ce n'est pas mon cas.

Création de noeuds et de relations

⚠ ne pas oublier ⚠
• Bien penser à couper la réplication du Slave MySQL pendant l'import.

• Une fois le fichier graph.db créé dans un dossier temporaire on coupe neo4j,
on fait un backup du fichier graph.db actuel et on le remplace par le nouveau
fichier.

• Bien penser à mettre les droits neo4j:adm en récursif sur graph.db

• Relancer neo4j.

• Exécuter des scripts post import.

• Warmup les données comme pour l'import journalier.

V1 -> V2
• Nombre de noeuds : 2.3M -> 18M : +680%
• Nombre de relations : 13M -> 650M : +4900%

• Nombre de propriétés : 18M -> 640M : +3450%

• Taille du store : 1.8gb -> 46gb : +2440%

À propos du page cache
• Pour de meilleurs performances, il faut
que tout le store soit contenu dans le
page cache (et donc en RAM) : 
 
dbms.memory.pagecache.size=64g
• Après avoir relancé le serveur
(typiquement après un import total) il
faut bien penser à warmup le page
cache. 
 
CALL apoc.warmup.run(true);

Le futur d'Insights 🚀
• Pas trop de changement dans le schéma de base.

• Mais des données évolutives dans Neo4j (classements, cibles, etc.).

• Des stats comparatives entre séries, pool de séries, cibles, etc.

• De l'analyse prédictive.

• De l'analyse sémantique.

• Un moteur de recommandation pour BetaSeries ?

Conclusion bateau 🚤
• Il faut toujours utiliser les outils adaptés
pour résoudre un problème. 🛠

• Quitte à se faire un peu violence. 😡

• À condition de les connaître bien sûr. 🙃

Importer 500 millions de données de MySQL vers Neo4j

Recommandé

Recommandé

Contenu connexe

Similaire à Importer 500 millions de données de MySQL vers Neo4j

Similaire à Importer 500 millions de données de MySQL vers Neo4j (20)

Dernier

Dernier (6)

Importer 500 millions de données de MySQL vers Neo4j