QU’EST CE QUI FAIT
BOUGER LES LIGNES
Enguerran
DELAHAIE
B.I.
Big DataAnalytics
D’où vient-on ?
Un peu d’histoire
UN PEU D’HISTOIRE
• Pourquoi la BI ?
1 entreprise =
N progiciels
• Sortir la donnée « de sa boite »
• L’analyser
• LA REND...
UN PEU D’HISTOIRE(2)
• Cohabitation de 2 mondes
• Dans les démarches dites « reporting » et « infocentre »
(principalement...
Ou en est on ?
Ce qui gravite autour
BI
MDM
Qualité
de
données
Data
mining
Data
Discovery
BI Mobile
Cloud BI
/ Saas BI
Open
Data
CE QUI GRAVITE AUTOUR
• BI Mobile
Ce n’est plus un sujet en soi, les éditeurs de
solutions ont des applis / des portails adaptés au
support Mobi...
• Compte tenu de l’accroissement exponentiel des
volumes de données à traiter, la gestion de la
qualité des données devien...
• La plupart des outils BI existants se sont appuyés soit sur le requêtage
direct de la base en SQL, ou sur un modèle (Uni...
• Une source de données supplémentaires à
l’heure du « data » déluge
• La problématique principale est que les formats
pro...
On va ou ?
Ce qui change la donne
• Social (Media) Mobile Analytics Cloud, ou
l'association des réseaux Sociaux, de la Mobilité,
de l‘Analytique et du Cloud...
Qu’est ce que le big data
13
Difference big data & bi « classique »
Les environnements d’analyses Big data ne visent pas à...
• Les données dans un entrepôts de données sont structurées. Des choix sont
faits dans leur alimentation, des sources sont...
• L’apprentissage automatique, c’est la capacité d’un
ordinateur à apprendre sans avoir été explicitement
programmé.
Les a...
• Dans la mouvance "Big Data", on va voir le marché
décisionnel donner un nouveau souffle aux outils
d’analyse sémantique ...
• Predictive Analytics – Analyse prédictive
– Des possibilités d’analyse prédictive (simples) existent
depuis longtemps da...
• Le CEP est une technique qui permet de découvrir les
événements complexes, par déduction, analyse et
corrélation d'événe...
• L’abondance de données, leur complexité, notamment issues du big data
oblige à porter la réflexion sur la manière de les...
• Jusqu’à présent les bases de données
opérationnelles et analytiques sont séparées, car
elles n’ont pas les mêmes contrai...
Certains annoncent la mort du Big Data car :
• Collecter une masse de données est inutile si celle-ci n’est pas utilisée
c...
DES QUESTIONS ?
Prochain SlideShare
Chargement dans…5
×

BI Analytics - Qu’est ce qui fait bouger les lignes

818 vues

Publié le

Présentation que j'ai effectué dans le cadre d'un TSG (Tech Study Group) chez SQLI le 24 Juin 2015

Publié dans : Logiciels
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
818
Sur SlideShare
0
Issues des intégrations
0
Intégrations
200
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

BI Analytics - Qu’est ce qui fait bouger les lignes

  1. 1. QU’EST CE QUI FAIT BOUGER LES LIGNES Enguerran DELAHAIE B.I. Big DataAnalytics
  2. 2. D’où vient-on ? Un peu d’histoire
  3. 3. UN PEU D’HISTOIRE • Pourquoi la BI ? 1 entreprise = N progiciels • Sortir la donnée « de sa boite » • L’analyser • LA RENDRE « Décisionnelle »  Des approches pour cela :  Reporting : Interroger la / les bases de données des progiciels pour sortir la donnée sur des rapports  Infocentre : Dupliquer la / les bases de données des progiciels pour sortir la donnée en minimisant l’impact sur les progiciels  Entrepôt de données : Utiliser des outils / processus ETL (Extract Transform & Load)  Structurer la donnée au mieux afin de la sortir et l’analyser.  On veut 1 seule version de la « vérité ». Pas d’informations à priori identiques mais définies différemment.
  4. 4. UN PEU D’HISTOIRE(2) • Cohabitation de 2 mondes • Dans les démarches dites « reporting » et « infocentre » (principalement années 70 à 90) – Le système décisionnel se place en bout de chaîne – Les données des différents systèmes sont peu croisées – Sens unique Transactionnel  Décisionnel – Il est généralement utilisé uniquement par le management, donc peu diffusé – Peu optimisé pour une recherche rapide • Avec l’entrepôt de données (90 à aujourdhui) – Les données sont historisées, croisées, préparées – Des outils sont diffusés plus largement – Sens Décisionnel  Transactionnel pas encore en standard – Une structuration de la donnée est mise en place pour rendre aisée et rapide les recherches (historisation avec Slowly Changing Dimension, modélisation en étoile/flocon,…) Transactionnel / opérationnel Décisionnel
  5. 5. Ou en est on ? Ce qui gravite autour
  6. 6. BI MDM Qualité de données Data mining Data Discovery BI Mobile Cloud BI / Saas BI Open Data CE QUI GRAVITE AUTOUR
  7. 7. • BI Mobile Ce n’est plus un sujet en soi, les éditeurs de solutions ont des applis / des portails adaptés au support Mobile. • Cloud BI Les offres de BI en SaaS sont largement diffusées. L’externalisation des données peut parfois soulever des problématiques de sécurité des données. BI MOBILE & CLOUD
  8. 8. • Compte tenu de l’accroissement exponentiel des volumes de données à traiter, la gestion de la qualité des données devient primordiale. C'est la qualité (plus que la quantité) de leurs données qui va devenir un critère de différenciation concurrentielle pour les entreprises. La gestion de la qualité de données devient un pan entier du décisionnel, incluant divers outils, depuis le nettoyage de données jusqu'à la gestion des données de référence (MDM). MDM & QUALITÉ DE DONNÉES
  9. 9. • La plupart des outils BI existants se sont appuyés soit sur le requêtage direct de la base en SQL, ou sur un modèle (Univers BO, etc) construit pour permettre aux utilisateurs de la solution de construire leurs analyse et leurs rapports. • Analyse non anticipée  Analyse infaisable • La data discovery utilisent des algorithmes pour découvrir des corrélations entre les données, et les outils estampillés « DD » se focalisent surtout sur des analyses dynamiques et un croisement rapide des données, rendu possibles par l’augmentation de la capacité de stockage et de la puissance des machines. DATA DISCOVERY / DATA EXPLORATION
  10. 10. • Une source de données supplémentaires à l’heure du « data » déluge • La problématique principale est que les formats proposés sont hétérogènes • Données figées / et / ou temps réel • Accès gratuit / payant (ex de la SNCF) OPEN DATA
  11. 11. On va ou ? Ce qui change la donne
  12. 12. • Social (Media) Mobile Analytics Cloud, ou l'association des réseaux Sociaux, de la Mobilité, de l‘Analytique et du Cloud. • Cet acronyme désigne les 4 grands éléments qui convergent dans le secteur des technologies de l’information. Ceux-ci s’entremêlent, le social pouvant être une source de données pour l’analytique, l’analytique pouvant se faire dans le cloud et être publié sur les médias sociaux… S(M)MAC
  13. 13. Qu’est ce que le big data 13 Difference big data & bi « classique » Les environnements d’analyses Big data ne visent pas à remplacer la BI / data warehouse traditionnels mais à les compléter, ils doivent être totalement intégrés en permettant de faire émerger des phénomènes depuis des données brutes BI traditionnelle •Sources de données essentiellement internes, connues et structurées •Modèles de données stables •La majorité des données sont des données historiques •De nombreux rapports produits de manière récurrente PLATEFORME BIG DATA •Nombreuses sources externes •Importants volumes de données non-structurées •Besoin d’itérations rapides pour expérimenter des hypothèses •L’analyse est faite sur des données qui peuvent rester dans leur état brut Croisement
  14. 14. • Les données dans un entrepôts de données sont structurées. Des choix sont faits dans leur alimentation, des sources sont écartées, ou tout le détail n’est pas intégré. Une structuration est faite. Son alimentation et évolution engendre des copûts non négligeables. • LE « DW » reste la structure la mieux adaptée à l’analyse répétitive et comparative des données structurées mais : • La baisse du cout de stockage et l’apparition de systèmes de stockage arborescents (ex: Hadoop HDFS,…) permet de faire le choix de stocker des données à toutes fins utiles, sans changer sa structure (et d’intégrer des données semi ou non structurées) sans à savoir quelle analyse sera faite ultérieurement sur celle-ci  DATA LAKE Ex : logs d’un site web sur plusieurs années, tweets mentionnant des sujets, statuts sociaux, commentaires de blogues, photos identifiées Cela ne dispense pas d’avoir des moyens de connaitre ce que contient le data lake, et d’y avoir appliqué une sécurité, sinon : DATA LAKE / DATA RESERVOIR
  15. 15. • L’apprentissage automatique, c’est la capacité d’un ordinateur à apprendre sans avoir été explicitement programmé. Les analyses liées au Big Data utilisent l’apprentissage automatique entre autre pour affiner les modèles d’analyse, ainsi que pour découvrir des structures non visibles dans les données. Le développement de ces outils est encouragé par l’amélioration de l’expérience d’analyse de données de très forte volumétrie. MACHINE LEARNING – APPRENTISSAGE AUTOMATIQUE
  16. 16. • Dans la mouvance "Big Data", on va voir le marché décisionnel donner un nouveau souffle aux outils d’analyse sémantique des données textuelles (données semi-ou non structurées issues du web et circulant sur Internet: mails, réseaux sociaux, blogs, messageries instantanées, chats, etc.). Les enjeux sont l'analyse d'opinions et de comportements des clients internautes ("Sentiment Analysis") – pour l’ecommerce notamment, l'analyse de l'e-reputation… TEXT MINING
  17. 17. • Predictive Analytics – Analyse prédictive – Des possibilités d’analyse prédictive (simples) existent depuis longtemps dans les outils BI. Le besoin croissant d’information nécessite d’intégrer des algorithmes statistiques plus poussés, s’appuyant sur des langages plus spécialisés et un volume de données plus important. • What if analysis – Celle-ci permet de définir des règles pour permettre de prescrire les actions à réaliser en fonction de paramètres définies au début de l’analyse ACTIONABLE DATA
  18. 18. • Le CEP est une technique qui permet de découvrir les événements complexes, par déduction, analyse et corrélation d'événements élémentaires. La plupart des solutions CEP et concepts peuvent être classés en deux catégories principales: – Calcul orienté CEP Une solution Calcul orienté CEP est axée sur l'exécution d'algorithmes en ligne en réponse à des événements entrant dans le système. Un exemple simple consiste à calculer en permanence une moyenne basée dans les données contenues dans les événements entrants. (ex : cellule de crise pour une compagnie aérienne) – Détection orientée CEP. Une solution Détection orientée CEP est axée sur la détection des combinaisons de modèles d'événements appelés situations. Un exemple simple consiste à détecter une situation par la reconnaissance d'une séquence spécifique d'événements. COMPLEX EVENT PROCESSING
  19. 19. • L’abondance de données, leur complexité, notamment issues du big data oblige à porter la réflexion sur la manière de les visualiser / interpréter. • L’objectif est de communiquer et de « faire comprendre » simplement une/ ou des informations complexes pour améliorer la prise de décision. Pour répondre à ces objectifs, la DataViz doit fournir une information : • Interprétable, c’est-à-dire claire, quelque soit le volume, la nature ou la provenance des données • Pertinente, c’est à dire qui réponde à un objectif métier dans un contexte défini • Novatrice, en fournissant une perspective différente qui permet de découvrir de nouvelles opportunités Exemple du quartet d’Ascombe - un graphique vaut mieux que mille tableaux DATAVIZ
  20. 20. • Jusqu’à présent les bases de données opérationnelles et analytiques sont séparées, car elles n’ont pas les mêmes contraintes et besoins d’optimisation. • HTAP désigne les bases possédant une architecture leur permettant de : – Traiter indifféremment des requêtes analytiques ou opérationnelles avec un délai raisonnable. – Eviter de stocker plusieurs fois la même donnée – Potentiellement proposer des analyses en temps réel HTAP (HYBRID TRANSACTIONNAL AND ANALYTICAL PROCESSING)
  21. 21. Certains annoncent la mort du Big Data car : • Collecter une masse de données est inutile si celle-ci n’est pas utilisée correctement. • Il faut explorer les données en se posant les bonnes questions : Y a-t-il une variation significative dans le jeu de données ? Est-ce que les données sont uniformes ou irrégulières ? La donnée est elle cachée dans une masse d’informations insignifiantes ? Peut elle être facilement extraite et transformée ? Est-ce possible de charger les données à une vitesse raisonnable ? Si ce n’est pas le cas le big data en lui-même est obsolète et il y a des substituts : • Fast Data, ou le fait de traiter en temps réelle des masses importantes de données pour obtenir des alertes instantanées et détecter des signaux sur le moment (Storm, Spark,… ) • Actionable Data, qui synthétise analyse prédictive et les scénarios Et-Si (What If) pour prescrire des recommandations permettant de planifier des actions futures. • Relevant Data, ou le fait de s’appuyer sur les relations entre les données pour déterminer la pertinence des informations dans les jeux de données, et permet de mieux comprendre les relations d’évènement semblant non reliés. • Smart Data, ou l’application d’algorithmes se basant sur les sens des données , permettant de rendre les solutions intelligentes et capables de s’améliorer. LE BIG DATA EST MORT !
  22. 22. DES QUESTIONS ?

×