BigData décisionnel
multiéchelle
David Combe
2
Plan
2. Scoring
4. Volume
3. Résultat
1. Objectif
5. Tâches
1. OBJECTIF
5
Pistes d’amélioration de
l’efficacité
• Détection de fraude
• Recommandation
• Simplification du parcours dans le site
•...
7
Données
• Visite/intérêt
• Chemin de visite/Nb de visites
• Achat
• Achat simultané/Nb de ventes
• Comportement
• Source...
8
L’analyse de données, quel intérêt ?
Visite/intérêt Achat Comportement Concurrence
Fournisseurs
(prix des
fournisseurs) ...
9
Décisions
• Achats
• Stocks
• Prix
• Enchères et mots-clés publicitaires
• Communication
• Ergonomie
2. SCORING/QUANTIFICATION
11
Paradigme éprouvé
Données atomiques
Données agrégée (group by/OLAP)
selon des catégories métier (ventes par
région/sect...
12
Chaque information supplémentaire
introduite est susceptible d’éclairer le
décideur
• Quels sont les produits que les g...
14
Distribution réelle vs. Distribution
aléatoire
• Dans les graphes
• Dans les nombres
• Via la variance/l’inertie
• Comm...
15
Principe
• L’important n’est pas les chiffres mais
l’inégalité entre les chiffres.
• Au point que si toutes les valeurs...
16
Un recul sur les graphes
• Méthode efficace
• La parallélisation n’est
même pas considérée
comme nécessaire.
http://ej....
17
Exemple
Voice on the Border: Do Cellphones Redraw the Maps?
Vincent Blondel, Pierre Deville, Frédéric Morlot, Zbigniew ...
18
Relations en eCommerce
• Co-achats, produits visités les uns à la suite des autres,
comptes, graphe visiteur-commentair...
19
Niches de ROI
• Segmentation
• Automatisation
• SEO
• Accélérer la navigation
• Recommandation/sérendipité
• Eviter les...
20
Choix des variables
• On choisit éventuellement un sous-ensemble des
données
• On choisit un ensemble de relations et d...
21
Choix des variables (suite)
• Possibilité de prendre en compte le temps en
choisissant :
• Positif
• Le CA par rayon du...
RESTITUTION DES
RÉSULTATS/VISUALISATION
24
Visualisation
• Communautés
• Hiérarchies de
communautés
• Listes
• Nuages de tags
• (dendogrammes)
• …
TRAITEMENT
27
Données
Rayon, CA en k€
Puériculture 84
Hifi 98
Maquillage 45
Sous-vêtements 41
Co-achat (rayon A, rayon B, nb de « co-...
28
MapReduce est limité ici
• MapReduce n’est pas adapté aux
opérations sur les graphes
• Le nombre d’itérations est impor...
29
Pregel (Google) « Think like a vertex »
30
Une itération dans Pregel/Giraph
31
Processing
• BigData sur des graphes : un sujet émergeant
• Des plateformes
• Apache Giraph
• GraphX pour Spark
• PostD...
32
Giraph
33
GraphX a pour ambition d’unifier
les 2 paradigmes
EN PRATIQUE
35
Tâches
• PoC
• Démonstration de pertinence
• Viabilité du passage à l’échelle
• Data processing
• Infrastructure de tra...
36
Tâches (suite)
• UX / UI design
• Visualisation / Interface de commande
• Interfaçage
• Interface avec des outils exist...
37
Conclusion
Production de communautés multi-échelles à partir de
données positives et négatives, voire temporelles
Parad...
Prochain SlideShare
Chargement dans…5
×

Big Data à destination du secteur commercial

688 vues

Publié le

A quelles question le BigData peut-il répondre ? Quels outils utiliser ? Comment traiter les données liées ? Quels sont les outils de machine learning qui peuvent vous être utiles ?

Voici une présentation que j'ai faite dans la préparation d'un entretien d'embauche. N'ayant aucune nouvelle depuis elle a toute sa place sur Slideshare :-/

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
688
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
5
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Big Data à destination du secteur commercial

  1. 1. BigData décisionnel multiéchelle David Combe
  2. 2. 2 Plan 2. Scoring 4. Volume 3. Résultat 1. Objectif 5. Tâches
  3. 3. 1. OBJECTIF
  4. 4. 5 Pistes d’amélioration de l’efficacité • Détection de fraude • Recommandation • Simplification du parcours dans le site • Bonnes pistes de diversification • Politique d’achat
  5. 5. 7 Données • Visite/intérêt • Chemin de visite/Nb de visites • Achat • Achat simultané/Nb de ventes • Comportement • Source/Nb de clics dans une zone • Concurrence • Proximité d’enseignes concurrentes proches du client/Prix chez la concurrence • Fournisseurs (prix des fournisseurs) • Fournisseurs approvisionnés pour un article/Prix min d’un article chez tous les fournisseurs • Tendances • Dénominations vestimentaires les plus employées dans les blogs/Facteur d’évolution des ventes depuis le mois dernier • Communication / service après vente • Tweets ayant provoqué le plus de réactions/Nb de retours par article
  6. 6. 8 L’analyse de données, quel intérêt ? Visite/intérêt Achat Comportement Concurrence Fournisseurs (prix des fournisseurs) Tendances Achat Que se mettre à acheter, produits subissant une hausse d'intérêt non anticipée ? Comporteme nt Quel fonctionnalités sont les plus utilisées selon le type d'objet recherché ? Quels sont les comportements qui traduisent un achat futur ? Concurrence Somme-nous considérés par les clients pour les produits à forte concurrence (SEO) ? Quels sont les produits sur lesquels il sera possible d'augmenter les marges ? Quelles fonctionnalités sont à privilégier pour les produits les plus concurrentiels ? Fournisseurs (prix des fournisseurs) Quel est la réaction des fournisseurs vis-à-vis de l'évolution de l'attractivité de leurs produits ? Sera-t-il possible d'écouler le stock si on passe une plus grosse commande à prix réduit ? Les visiteurs appréciant une marque particulière ont-ils des caractéristiques propres ? Les concurrents bénéficient-ils de conditions plus favorables de la part des fournisseurs ? Tendances Nos clients sont-ils des hipsters ou des suiveurs/no fashion ? Nos clients sont-ils sensibles aux tendances ? Les hipsters ont-ils des comportements spécifiques ? Les concurrents ont- ils mieux anticipé les tendances que nous ? Les fournisseurs ont- ils anticipé les tendances ? Communicati on / service après vente Quels sont les produits qui provoquent le plus de requêtes SAV, commentaires, demandes de renseignement ? Y a-t-il des produits qui buzzent mais que les gens évitent ? Quels comportements traduisent un besoin de se renseigner ? Génère-t-on autant de commentaires que la concurrence ? Quels fournisseurs sont à éviter pour éviter les retours ? Sur quels produits communiquer ? Y a-t-il des nouveaux produits qui génèrent du buzz/de l'intérêt/des pannes ?
  7. 7. 9 Décisions • Achats • Stocks • Prix • Enchères et mots-clés publicitaires • Communication • Ergonomie
  8. 8. 2. SCORING/QUANTIFICATION
  9. 9. 11 Paradigme éprouvé Données atomiques Données agrégée (group by/OLAP) selon des catégories métier (ventes par région/secteur…)
  10. 10. 12 Chaque information supplémentaire introduite est susceptible d’éclairer le décideur • Quels sont les produits que les gens achètent le plus ? (du papier toilette) • +temps -> Quels sont les produits que les gens achètent le plus en ce moment ? (des glaces) • +age -> Quels sont les produits que les gens de votre âge achètent le plus ? (du coca-cola) • +nb d’enfants -> des barres chocolatées • recommandations plus pertinentes • Quels sont les produits que, compte tenu de vos caractéristiques, vous êtes plus susceptible d’acheter qu’une autre personne qui aurait des caractéristiques proches MOINS une caractéristique précise.
  11. 11. 14 Distribution réelle vs. Distribution aléatoire • Dans les graphes • Dans les nombres • Via la variance/l’inertie • Comme dans d’autres domaines… • Reconnaissance de visages
  12. 12. 15 Principe • L’important n’est pas les chiffres mais l’inégalité entre les chiffres. • Au point que si toutes les valeurs sont égales aucun résultat ne peut être calculé. • Importance des proportions, pas des chiffres dans l’absolu. • Insensible aux combinaisons linéaires • Données nomalisées
  13. 13. 16 Un recul sur les graphes • Méthode efficace • La parallélisation n’est même pas considérée comme nécessaire. http://ej.iop.org/images/1742-5468/2008/10/P10008/Full/9239901.jpg
  14. 14. 17 Exemple Voice on the Border: Do Cellphones Redraw the Maps? Vincent Blondel, Pierre Deville, Frédéric Morlot, Zbigniew Smoreda, Paul Van Dooren & Cezary Ziemlicki / Researchers, Catholic University of Louvain (Belgium) and Orange Labs / November 15th, 2011 http://www.paristechreview.com/2011/11/15/voice-border-cellphones-redraw-maps/ Détection de communautés basée sur les communications par téléphones portables (données issues des communications inter-antennes)
  15. 15. 18 Relations en eCommerce • Co-achats, produits visités les uns à la suite des autres, comptes, graphe visiteur-commentaire, produits notés par une même personne, produits d’une même marque, produits partageant X mots dans leur intitulé, distance entre les points de livraison, produits d’un même fournisseur qui se sont vu être hors stock en même temps (valué par le nombre de jours), clients atteints par les opérations commerciales • Nb d’attributs RDF partagés par les articles, distance des articles entre eux dans l’arborescence du magasin, quels sont les paires de produits co-visités le plus souvent par les personnes qui cherchent un parasol ?, quels sont les termes de recherche qui ont été le plus co-recherchés par les visiteurs
  16. 16. 19 Niches de ROI • Segmentation • Automatisation • SEO • Accélérer la navigation • Recommandation/sérendipité • Eviter les ambiguïtés dans les BDD • Eviter la fraude • Aider à la prise de décision
  17. 17. 20 Choix des variables • On choisit éventuellement un sous-ensemble des données • On choisit un ensemble de relations et d’attributs positifs par rapport au but • Par exemple, la vente d’un produit et leur co-visite par un même utilisateur • On choisit un ensemble de relations et d’attributs négatifs par rapport au but • Par exemple, le coût en publicité pour chaque produit et le ratio « page de sortie » pour le produit. • On propose un synthèse à travers laquelle les relations et les attributs ont été normalisés •  intérêt de proposer des articles en prenant simultanément plusieurs facteurs a priori indépendants et complémentaires, basés sur leur popularité et leur coût de promotion.
  18. 18. 21 Choix des variables (suite) • Possibilité de prendre en compte le temps en choisissant : • Positif • Le CA par rayon du mois dernier • Négatif • Le CA par rayon du même mois de l’année dernière • On fait ressortir les plus fortes hausses et les plus fortes baisses, en les détectant des communautés de rayons selon ce critère.
  19. 19. RESTITUTION DES RÉSULTATS/VISUALISATION
  20. 20. 24 Visualisation • Communautés • Hiérarchies de communautés • Listes • Nuages de tags • (dendogrammes) • …
  21. 21. TRAITEMENT
  22. 22. 27 Données Rayon, CA en k€ Puériculture 84 Hifi 98 Maquillage 45 Sous-vêtements 41 Co-achat (rayon A, rayon B, nb de « co-achats ») Puériculture Hifi 2 Maquillage Puériculture 45 Hifi Sous-vêtements 14 Maquillage Sous-vêtements 15 On pourra déduire de ces données quels sont les articles secondaires à promouvoir en catalogue si on veut intéresser les gens qui dépensent dans un rayon à fort CA, sans trop mettre en avant les rayons à fort CA eux- mêmes.
  23. 23. 28 MapReduce est limité ici • MapReduce n’est pas adapté aux opérations sur les graphes • Le nombre d’itérations est important pour le traitement parallélisé de graphes • La matérialisation de résultats intermédiaires à chaque itération MapReduce pénalise les performances
  24. 24. 29 Pregel (Google) « Think like a vertex »
  25. 25. 30 Une itération dans Pregel/Giraph
  26. 26. 31 Processing • BigData sur des graphes : un sujet émergeant • Des plateformes • Apache Giraph • GraphX pour Spark • PostDocs, stage • Projets préliminaires
  27. 27. 32 Giraph
  28. 28. 33 GraphX a pour ambition d’unifier les 2 paradigmes
  29. 29. EN PRATIQUE
  30. 30. 35 Tâches • PoC • Démonstration de pertinence • Viabilité du passage à l’échelle • Data processing • Infrastructure de traitement des données • Map() • Reduce() • Comportement Giraph/GraphX • …ou autre chose (temps réel…) • Gestion de l’intelligence intermachines/intercommunautés
  31. 31. 36 Tâches (suite) • UX / UI design • Visualisation / Interface de commande • Interfaçage • Interface avec des outils existants • Pour un déploiement • Définition d’un catalogue d’attributs/liens pertinents, politique d’interprétation des données manquantes, un mode d’interrogation (batch/interactif)
  32. 32. 37 Conclusion Production de communautés multi-échelles à partir de données positives et négatives, voire temporelles Paradigme de calcul très récent (publié en 2010 par Google) et utilisé par Yahoo, Facebook, LinkedIn, Twitter Production de communautés répondant aux critères, visant l’intéractivité et la hiérarchisation automatique des données Repose sur un principe d’auto-organisation Plateforme pour l’ntelligence décisionnelle, adaptable et permettant l’analyse de données sous forme de relations et d’attributs numériques

×