Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Présentation générales du Big Data et zoom sur des cas d'usage dans l'industrie et les services.
Présentation réalisée à l'occasion de l'événement Big data de Niort du 20 mars 2014
What is Big Data?
C'est quoi les big data? et comment ils ont naquis?
Big dat, manipulés comment? quelles sont leurs applications et leurs inconvénients actuels?
Dans cette session, vous apprendrez:
Les différences entre modéliser pour MongoDB versus une base de données relationnelle.
Une méthodologie pour modéliser pour MongoDB qui est adaptable aux projets simples, agiles ou plus complexes.
Quelques patrons de conception (design patterns) courants dans le développement d'applications avec MongoDB, dans le but de maximiser la performance.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Présentation générales du Big Data et zoom sur des cas d'usage dans l'industrie et les services.
Présentation réalisée à l'occasion de l'événement Big data de Niort du 20 mars 2014
What is Big Data?
C'est quoi les big data? et comment ils ont naquis?
Big dat, manipulés comment? quelles sont leurs applications et leurs inconvénients actuels?
Dans cette session, vous apprendrez:
Les différences entre modéliser pour MongoDB versus une base de données relationnelle.
Une méthodologie pour modéliser pour MongoDB qui est adaptable aux projets simples, agiles ou plus complexes.
Quelques patrons de conception (design patterns) courants dans le développement d'applications avec MongoDB, dans le but de maximiser la performance.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Ce slide comprend des informations sur le big data et son utilisation dans le domaine du marketing digital ainsi que des exemples d'applications réels dans différent secteur
Valorisez votre business grâce au Big Data - Mois du numérique 2017Cyril Marsaud
Transformez les données en décisions : valorisez votre business grâce au Big Data. Table ronde organisée durant le Mois du numérique en Seine-et-Marne avec Les Digiteurs.
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
Retrouvez notre techday sur le Big Data, qui présente l'état du Big Data et les enjeux pour le monde de l'assurance avec une présentation de notre projet Square Predict.
http://www.square-solutions.com/accueil/square-predict-big-data-assurance/
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
Une présentation du Big Data faite dans le cadre des Open Source Days à l'ENSA de Khouribga. Elle traite du potentiel business et des opportunités qui peuvent être crées par le Big Data dans différents domaines métier avec un apperçu également sur les outils et les techniques associées
Le Big Data, semble aujourd’hui la solution miraculeuse pour une gestion efficace des masses de donnée. Mais de quoi s’agit-il ? Un vrai levier pour améliorer son activité? ou simple poudre aux yeux ? Dans ce contexte, Nexialog s’intéresse de plus en plus à cette thématique porteuse, et a réalisé une première étude abordant le Big Data en lien avec les secteurs financiers et assurantiels.
Trois sujets de recherche ont également été lancés en interne :
-L’impact du Big data sur l’organisation de l’entreprise
-Les technologies Big Data
-Gestion de Risques dans l’environnement Big Data
quelles sont les tendances de la business intelligence en 2021france
Cela ne fait aucun doute : la Business Intelligence (BI)
est devenue un atout indispensable pour les
organisations de toutes tailles .
La moindre bribe de donnée peut aujourd’hui être traitée,
exploitée et analysée afin d’en tirer des informations
pertinentes .
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
1. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 1
Module Big Data
ASSURÉ ET PRÉPARÉ PAR RAOUDHA CHEBIL
Plan général
1. Introduction aux Big Data
2. Hadoop et HDFS
3. Approche de Traitement MapReduce
4. Traitement Avancé Big Data
5. NOSQL
6. Architectures Big Data
2
1
2
2. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 2
Introduction aux Big Data
DR. RAOUDHA CHEBIL ENSI
Plan
Constats
Définition
Les 3V et les V supplémentaires
Bénéfices et challenges
Exemples d’applications
Traitement des données
Etapes d’un projet Big Data
Domaines connexes
Nouveaux métiers
4
3
4
3. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 3
Constats
Explosion des données issues de plusieurs
sources :
Réseaux sociaux ;
Signaux GPS de téléphones mobiles ;
Radio identification (RFID tags) ;
Logs ;
Capteurs utilisés pour collecter des informations
climatiques, de trafic et de consommation ;
Transactions d’achat en ligne.
5
Constats
6
Chaque jour nous générons 2,5 exaoctets de
données soit 912,5 exaoctets par an.
En 2018, on estime que 90% des données disponibles
dans le monde ont été créées pendant les deux
dernières années.
5
6
4. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 4
Constats
7
7
4.5 milliards d’utilisateurs
internet en 2019
Source: www.internetworldstats.com
Twitter : 500 millions de
tweets chaque jour
Source : planetscope.com
Chaque jour :
Plus de 500 TO de nouvelles
données
2.7 milliards de « j’aime »
300 millions de photos chargées
70000 requêtes demandées
Source : lemondeinformatique.fr
Constats
• Chefs d’entreprise prennent fréquemment des
décisions basées sur des informations en lesquelles ils
n’ont pas confiance, ou qu’ils n’ont pas.
1/3
• Chefs d’entreprise disent qu’ils n’ont pas accès aux
informations dont ils ont besoin pour faire leur
travail.
1/2
• Des DSI (Directeurs des SI) veulent exploiter «
L’informatique décisionnelle et analytique » pour
améliorer leur compétitivité
83%
• Des PDG ont besoin d’améliorer la capture et la
compréhension des informations pour prendre
des décisions plus rapidement.
60%
8
7
8
5. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 5
Constats
Intérêt de stocker, d’analyser et d’exploiter
ces données
9
Définition
Big Data = Grosses données = Méga données =
Données massives
Big Data : ensemble de données massives ayant une
structure variée et complexe avec des difficultés
de stockage, d'analyse et de visualisation.
10
9
10
6. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 6
Définition
11
IOPS(Input/Output Operations Per Second)
Bénéfices
Créer du sens et des connaissances à partir de données non
enrichies et non structurées ;
Aider les décideurs à prendre les « bonnes » décisions au bon
moment ;
Analyser des tendances sur la durée ;
Permettre la création de modèle sur des données ambiantes ;
Prédire des phénomènes, des comportements…
12
11
12
7. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 7
Challenges
Réunir un grand volume de données variées pour
trouver de nouvelles idées.
Capturer des données créées rapidement.
Sauvegarder toutes ces données.
Traiter ces données et les utiliser.
13
Les 3V du Big data
14
Volume Variété
Vitesse
13
14
8. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 8
Volume
En une minute, il y a sur internet :
30h de vidéos
204 millions d’e-mails
300 mille tweets
Données numériques créées dans le monde :
1,2 zettaoctets/an en 2010
1,8 zettaoctets/an en 2011
2,8 zettaoctets/an en 2012
40 zettaoctets/an en 2020
15
Volume
Quelles données doivent être stockées ?
Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales?
Sociales?
Aucune donnée n’est inutile.
Certaines n’ont juste pas encore servi.
Problèmes :
Comment stocker les données dans un endroit fiable, qui soit
moins cher ?
Comment parcourir ces données et en extraire des
informations facilement et rapidement?
16
15
16
9. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 9
Variété
Données structurées
◦ Schéma prédéfini imposé aux données
◦ Très structurées
◦ Stockées dans un système de base de données
relationnel.
17
20% des données
Variété
Données semi-structurées
◦ XML, SGML,. . .
◦ Tweets
◦ BibTeX
◦ Les logs
18
17
18
10. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 10
Variété
Données non-structurées
Les données ne sont pas organisées
◦ Multimédia : vidéos, photos, audio
◦ Messages emails
◦ Texte libre
◦ Présentations
◦ Rapports
◦ . . .
19
Vitesse (Vélocité)
o Plusieurs données sont générées rapidement et ont
besoin d’être traitées rapidement.
o Le défi consiste à gérer, analyser, visualiser et
découvrir les connaissances à partir des données
recueillies en temps opportun et de manière évolutive.
o Décisions en retard opportunités ratées
20
19
20
11. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 11
Vitesse
E-Promotions : selon votre localisation actuelle,
votre historique d’achat, ce que vous aimez envoi
de promotions dans les magasins de votre entourage.
Suivi santé : capteurs surveillants vos activités et
votre corps des mesures anormales exigent une
réaction immédiate
21
Les V supplémentaires…
Véracité
o Proposée par IBM
o Avec l’augmentation de la quantité, la qualité et la
précision des données diminuent.
o Les solutions big data doivent remédier à cela.
o Besoin d’une grande rigueur dans la collecte,
l’enrichissement et le croisement des données.
22
21
22
12. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 12
Les V supplémentaires…
Valeur
o La valeur ajoutée des données ou des informations
extraites
o Il faut transformer les données en valeurs exploitables
o Sans une réelle valeur, ce n’est qu’un gaspillage de
ressources
23
Les V supplémentaires…
Visualisation
Représentation des données sous formes intelligentes,
pratiques et interactives
24
23
24
13. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 13
Les V supplémentaires…
Variabilité
Les données ont une signification en
perpétuelle évolution : lol, émoticônes,…
25
Technologies Big Data
26
Plusieurs technologies Big Data classées selon leurs objectifs :
25
26
14. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 14
Exemples d’applications
Ressources humaines et recrutement :
Méthode utilisée surtout par les cabinets de recrutement et les
grands groupes afin de mieux cibler les candidats au
recrutement.
Etablir un profil type de candidat pour chaque poste.
Récolter les données à partir des réseaux sociaux (LinkedIn,
Google +, Facebook et Twitter) et des bases de données en
ligne.
A l’aide des outils d’analyse, établir des profils permettant
de repérer les candidats potentiels en amont d’un
recrutement.
27
Exemples d’applications
Marketing prédictif
Nouvelles méthodes permettant de bien cibler les clients.
Collecter les données à partir des sources disponibles :
• Dans le cas où les données possédées ne sont pas suffisantes, il
est possible d’acheter des BD existantes ou d’utiliser l’open data.
Effectuer une analyse approfondie des clients et de
l’efficacité des campagnes réalisées.
Augmenter l’efficacité des campagnes en personnalisant
les offres.
28
27
28
15. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 15
Exemples d’applications
Maintenance prédictive
Méthode utilisée dans le milieu industriel pour réduire les
coûts de maintenance des équipements.
Installation de capteurs sur les machines.
Utiliser les données récuperées pour planifier l’entretien de
celles-ci.
Cette méthode sera de plus en plus facile avec l’essor des
objets connectés.
29
Exemples d’applications
Santé
Les solutions Big Data révolutionnent la recherche dans le
domaine de la santé :
Mieux traquer les agents pathogènes :
◦ Surveiller les maladies infectieuses ;
◦ Alerte en cas d’épidémie : grippe, infections alimentaires
(salmonelloses, listérioses…), rage, méningites bactériennes...
La génomique : reine du big data :
◦ Réduction considérable des coûts du séquençage du génome
humain !
Analyse d’images médicales ou de microscopie
30
29
30
16. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 16
Exemples d’applications
Détection de fraudes
Réduction de crimes
Surveillance
31
Traitement des données
Trois grandes classes :
Traitement descriptif : que s’est-il passé ?
Traitement prédictif : que va-t-il se passer ?
Traitement prescriptif : comment faire pour que ça
se passe ?
32
31
32
17. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 17
Etapes d’un projet Big Data
Etape 1 : Identifier et collecter les données
En amont de tout projet Big Data, il faut identifier les sources
de données les plus pertinentes et collecter les données
Attention il ne faut pas investir dans des informations dont le coût de
traitement est plus élevé que leur valeur potentielle.
Etape 2 : Nettoyage de données
Convertir les données pour les analyser = générer des vues
structurées
33
Etapes d’un projet Big Data
Etape 3 : Travail ad-hoc
Analyser les données avec des outils divers SQL, R, Python
pour bâtir des modèles
Etape 4 : Evaluation
Etape 5 : Industrialisation
Peaufiner les algorithmes
Automatiser les traitements et les méthodes de visualisation
Les placer sur un gestionnaire de cluster
34
33
34
18. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 18
Nouveaux métiers
Chief Data Officer
◦ Responsable de l’acquisition des données ;
◦ Identification de fournisseurs possibles de données, sensibilisation,
négociation et acquisition ;
◦ Pilote et contribue à la stratégie Big Data de l’entreprise.
Data Architect
◦ Elabore l’infrastructure technique permettant de gérer d’énormes
volumes de données.
Data Scientist
◦ Construit des algorithmes permettant d’extraire des informations
pertinentes et utiles à partir des masses de données non structurées ;
◦ Doit poser les bonnes questions!
35
Nouveaux métiers
Data Analyst
◦ C’est un spécialiste du métier pour lequel on met en œuvre des initiatives
Big Data
◦ Réceptionne, analyse et consolide les données reçues du Data Scientist
Data Visualizer
◦ Marie l’art à la donnée ;
◦ Présente l’information, sous forme de graphiques ou d’images, de façon
compréhensible et efficace fournissant un outil précieux surtout pour
l’aide à la décision.
36
35
36
19. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 19
Le revers de la médaille…
Sécurité des données : risques d’intrusions!
Exploitations illégales des données!
Respect de nos vies privées ?!
Respect du secret médical dans le domaine de la
santé ?
Pertinence de toutes les décisions prises
automatiquement ?
Nécessité de surveiller l’exploitation des données
massives pour éviter les dérives.
37
Plusieurs domaines connexes…
38
Data mining Data science
Machine
Learning
Business
Intelligence
Big Data
37
38
20. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 20
Informatique décisionnelle :
Ensemble de méthodes, de moyens et d'outils informatiques
utilisés pour piloter une entreprise et aider à la prise de
décision : tableaux de bord, rapports analytiques et
prospectifs.
Big Data :
Utilisation de statistiques inférentielles sur des données à
faible densité en information dont le grand volume permet
d’inférer des lois donnant lieu à des capacités prédictives,
descriptives ou prespcriptives.
39
BI vs Big Data
BI vs Big Data
40
Responsables
Métier
Responsables
IT
Déterminer quelles questions poser
Structurer les données pour
répondre à ces questions
Responsables
IT
Responsables
Métier
Fournir une plateforme pour
permettre la découverte créative
Explorer la plateforme pour déterminer
quelles questions poser
39
40
21. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 21
Data Mining
Famille d'outils permettant l'exploration et l'analyse des
données contenues au sein d'une base décisionnelle de type
Data Warehouse ou DataMart.
Permet de trouver des structures originales et des corrélations
informelles entre les données => Extraire des informations
significatives depuis de grandes quantités de données.
Permet de mieux comprendre les liens entre des phénomènes
en apparence distincts et d'anticiper des tendances
difficilement détectables.
41
Data Science
Science de la donnée
Discipline récente en pleine évolution
Bâtit ses outils et concepts sur le data mining = data mining
massif!
Analyser les données de façon à détecter des agrégats, des
liens, des informations =>répondre à des questions, bâtir des
modèles…
42
41
42
22. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 22
Machine Learning
Va au-delà du data mining et de la data science.
S’appuie sur des algorithmes afin de traiter les données et
d’apprendre des règles au fur et à mesure.
La prise de décision se fait de manière automatique.
43
DS-ML
44
https://fr.blog.businessdecision.com/methode-crisp-la-cle-de-la-reussite-en-data-science/
43
44
23. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 23
DM versus ML
Data mining Machine learning
1960 1980 : grâce au jeu de dames
développé par un des pionniers du
« Computer Gaming » : Arthur
Samuel.
Consiste à extraire d’un grand
volume de données, les
informations les plus utiles pour
détecter des corrélations cachées
entre données ou des tendances.
Il est utilisé par des humains
Une fois triées, les données
peuvent aider le Machine Learning
dans sa tâche de formation des
systèmes informatisés pour la
réalisation de tâches complexes,
sans avoir besoin
d’intervention humaine.
DM versus ML
Data mining Machine learning
Le Data Mining puise ses
informations dans des réserves de
données.
Le Machine Learning fonctionne
avec des algorithmes.
Le Data Mining ne peut ni
apprendre ni s'adapter.
Il suit des règles prédéfinies et est
statique.
L’intérêt de l’apprentissage
automatique c’est d’apprendre. Il
ajuste les algorithmes au fur et à
mesure que les bonnes
circonstances se manifestent.
La DM est aussi intelligente que les
utilisateurs qui entrent les
paramètres.
Le ML signifie que les ordinateurs
deviennent plus intelligents.
45
46
24. Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 24
DM versus ML
En termes simples, le Data Mining est une ressource sur
laquelle le Machine Learning peut compter pour accomplir ses
fonctions.
L’intervention humaine est presque absente lorsqu’il s’agit du
Machine Learning par contre elle est importante dans le Data
Mining.
Plusieurs termes à comprendre
et à différencier…
48
Rack server
Data center
Cluster
47
48