Aqui hadoop draft

INTRODUCTION
-----------La premiÃ¨re technologie qui vient Ã lâ€€esprit lorsque lâ€€on Ã©voque
aujourdâ€€hui le sujet du Big Data est Hadoop est le framework analytique Java
dÃ©veloppÃ© au sein de la fondation Apache. Populaire, Hadoop reste toutefois un
mystÃ¨re pour nombre dâ€€utilisateurs. Pour mieux comprendre les fondements
technologiques dâ€€Hadoop et les diffÃ©rentes briques qui le composent, LeMagIT
sâ€€est plongÃ© dans lâ€€histoire et lâ€€architecture du framework.
Doug Cutting, Cloudera
Doug Cutting, crÃ©ateur dâ€€Hadoop, avec lâ€€Ã©lÃ©phant qui servait de peluche
Ã son fils, et est aujourd'hui la mascotte du framework Java
Hadoop trouve ses racines dans les technologies propriÃ©taires dâ€€analyse de
donnÃ©es de Google. En 2004, le moteur de recherche a publiÃ© un article de
recherche prÃ©sentant son algorithme MapReduce, conÃ§u pour rÃ©aliser des
opÃ©rations analytiques Ã grande Ã©chelle sur un grand cluster de serveurs, et
sur son systÃ¨me de fichier en cluster, Google Filesystem (GFS). Doug Cutting,
qui travaillait alors sur le dÃ©veloppement du moteur de recherche libre Apache
Lucene et butait sur les mÃªmes problÃ¨mes de volumÃ©trie de donnÃ©es quâ€€avait
rencontrÃ© Google, sâ€€est alors emparÃ© des concepts dÃ©crits dans lâ€€article
du gÃ©ant de la recherche et a dÃ©cidÃ© de rÃ©pliquer en open source les outils
dÃ©veloppÃ©s par Google pour ses besoins. EmployÃ© chez Yahoo, il sâ€€est alors
lancÃ© dans le dÃ©veloppement de ce qui est aujourdâ€€hui le projet Apache
Hadoop â€€ pour la petite histoire, Hadoop est le nom de lâ€€Ã©lÃ©phant qui
servait de doudou Ã son jeune fils.
Hadoop : un framework modulaire
Hadoop nâ€€a pas Ã©tÃ© conÃ§u pour traiter de grandes quantitÃ©s de donnÃ©es
structurÃ©es Ã grande vitesse. Cette mission reste largement lâ€€apanage des
grands systÃ¨mes de Datawarehouse et de datamart reposant sur des SGBD
traditionnelles et faisant usage de SQL comme langage de requÃªte. La
spÃ©cialitÃ© dâ€€Hadoop, ce serait plutÃ´t le traitement Ã trÃ¨s grande
Ã©chelle de grands volumes de donnÃ©es non structurÃ©es tels que des documents
textuels, des images, des fichiers audioâ€¦ mÃªme sâ€€il est aussi possible de
traiter des donnÃ©es semi-structurÃ©es ou structurÃ©es avec Hadoop.
HDFS : le systÃ¨me de gestion de fichier en cluster au cÅ€ur dâ€€Hadoop
Au cÅ€ur du framework open source se trouve avant tout un systÃ¨me de fichiers
en cluster, baptisÃ© HDFS (Hadoop Distributed Filesystem). HDFS a Ã©tÃ© conÃ§u
pour stocker de trÃ¨s gros volumes de donnÃ©es sur un grand nombre de machines
Ã©quipÃ©es de disques durs banalisÃ©s.
Le filesystem HDFS est conÃ§u pour assurer la sÃ©curitÃ© des donnÃ©es en
rÃ©pliquant de multiples fois lâ€€ensemble des donnÃ©es Ã©crites sur le cluster.

Par dÃ©faut, chaque donnÃ©e est Ã©crite sur trois nÅ€uds diffÃ©rents. Il ne
sâ€€agit pas du plus Ã©lÃ©gant des mÃ©canismes de redondance, ni du plus
efficace, mais Ã©tant donnÃ© que lâ€€on sâ€€appuie sur des disques durs SATA
Ã©conomiques, un cluster HDFS a le bÃ©nÃ©fice dâ€€offrir une solution de
stockage trÃ¨s Ã©conomique par rapport Ã celui des baies de stockage
traditionnelles. En lâ€€Ã©tat, HDFS est optimisÃ© pour maximiser les dÃ©bits de
donnÃ©es et non pas pour les opÃ©rations transactionnelles alÃ©atoires. La
taille dâ€€un bloc de donnÃ©es est ainsi de 64 Mo dans HDFS contre 512 octets Ã
4 Ko dans la plupart des systÃ¨mes de fichiers traditionnels. Cette taille de
bloc sâ€€explique par le fait que Hadoop doit analyser de grandes quantitÃ©s de
donnÃ©es en local.
Avec la version 2.0 dâ€€Hadoop, la principale faiblesse dâ€€HDFS a Ã©tÃ©
levÃ©e : jusquâ€€alors la gestion des mÃ©tadonnÃ©es associÃ©es aux fichiers
Ã©taient la mission dâ€€un unique Â« name node Â» ; ce qui constituait un point
de faille unique. Depuis la version 2.0 et lâ€€arrivÃ©e de la fonction HDFS High
Availability, le "name node" est rÃ©pliquÃ© en mode actif/passif, ce qui offre
une tolÃ©rance aux pannes. Un autre Â« dÃ©faut Â» dâ€€HDFS est que le systÃ¨me
nâ€€est pas conforme au standard POSIX et que certaines commandes familiÃ¨res
sur un filesystem traditionnel ne sont pas disponibles.
Il est Ã noter que si HDFS est le systÃ¨me de fichiers par dÃ©faut dâ€€Hadoop,
le framework peut aussi Ãªtre dÃ©ployÃ© sur des systÃ¨mes tiers, souvent grÃ¢ce
Ã des couches de compatibilitÃ©. MapR, lâ€€un des pionniers dâ€€Hadoop, a ainsi
dÃ©veloppÃ© son propre systÃ¨me de gestion de fichiers qui rÃ¨gle le problÃ¨me
de fragilitÃ© liÃ© aux "name nodes" dâ€€HDFS (en distribuant les informations de
mÃ©tadonnÃ©es sur les nÅ€uds de donnÃ©es) et qui ajoute aussi des fonctions
avancÃ©es comme les snapshots, la rÃ©plication ou le clonage. Plusieurs
constructeurs de baies de stockage comme EMC, HP ou IBM ont aussi dÃ©veloppÃ©
des couches de compatibilitÃ© HDFS au dessus de certaines de leurs baies ; ce
qui leur permet de stocker les donnÃ©es dâ€€un cluster Hadoop.
MapReduce : distribuer le traitement des donnÃ©es entre les nÅ€uds
Le second composant majeur dâ€€Hadoop est MapReduce, qui gÃ¨re la rÃ©partition
et lâ€€exÃ©cution des requÃªtes sur les donnÃ©es stockÃ©es par le cluster. Le
framework MapReduce est conÃ§u pour traiter des problÃ¨mes parallÃ¨lisables Ã
trÃ¨s grande Ã©chelle en sâ€€appuyant sur un trÃ¨s grand nombre de nÅ€uds.
Lâ€€objectif de MapReduce et de son mÃ©canisme avancÃ© de distribution de tÃ
¢ches est de tirer parti de la localitÃ© entre donnÃ©es et traitements sur le
mÃªme nÅ€ud de faÃ§on Ã minimiser lâ€€impact des transferts de donnÃ©es entre
les nÅ€uds du cluster sur la performance.
MapReduce est un processus en plusieurs Ã©tapes. Dans la phase Â« Map Â», le
nÅ€ud maitre divise le problÃ¨me posÃ© en sous-problÃ¨mes et les distribue entre
nÅ€uds de traitement. Ces nÅ€uds peuvent en cascade distribuer Ã nouveau les tÃ
¢ches qui leur ont Ã©tÃ© assignÃ©es. Les rÃ©ponses sont ensuite remontÃ©es de
nÅ€uds en nÅ€uds jusquâ€€au nÅ€ud maitre ayant assignÃ© les travaux Ã
lâ€€origine.
Câ€€est alors que sâ€€opÃ¨re lâ€€Ã©tape "Reduce" : le nÅ€ud maitre collationne
les rÃ©ponses remontant des nÅ€uds de traitement et les combine afin de fournir
la rÃ©ponse Ã la question posÃ©e Ã lâ€€origine. Il est Ã noter que les
traitements Mapreduce sâ€€opÃ¨rent sur des donnÃ©es structurÃ©es sous la forme
(clÃ©, valeur) et que des mÃ©canismes dâ€€optimisation assurent que les
traitements sont distribuÃ©s de telle sorte quâ€€ils sâ€€opÃ¨rent au plus proche
des donnÃ©es (câ€€est-Ã -dire idÃ©alement sur les neuds qui hÃ©bergent les
donnÃ©es concernÃ©es).

De nouveaux outils et langages pour faciliter les requÃªtes sur Hadoop

L'architecture de la distribution Hadoop d'Hortonworks
Les API clÃ©s de MapReduce sont accessibles en Java, un langage certes populaire
mais qui requiert des compÃ©tences bien plus pointues que la maÃ®trise dâ€€un
langage dâ€€interrogation comme SQL. Plusieurs langages ont donc Ã©mergÃ© pour
tenter de simplifier le travail des utilisateurs dâ€€Hadoop, dont Pig et Hive.
NÃ© chez Yahoo, Pig est conÃ§u pour traiter toute forme de donnÃ©es. Le langage
de Pig est PigLatin, complÃ©tÃ© par un runtime destinÃ© Ã exÃ©cuter les
programmes rÃ©digÃ©s en PigLatin. PigLatin a une sÃ©mantique assez simple. Il
permet de charger des donnÃ©es, puis de les manipuler (appliquer des filtres,
des groupements, des opÃ©rations mathÃ©matiquesâ€¦).
Chez Facebook, des dÃ©veloppeurs ont quant Ã eux conÃ§u Hive, pour permettre Ã
des dÃ©veloppeurs familiers du langage SQL de manipuler des donnÃ©es dans
Hadoop. Hive dispose dâ€€un langage baptisÃ© HQL (Hive Query Langage) dont la
syntaxe est similaire Ã celle de SQL. Le service Hive dÃ©coupe les requÃªtes en
jobs MapReduce afin de les exÃ©cuter sur le cluster.
Au fil des ans, Hadoop a continuÃ© Ã sâ€€enrichir de nouvelles applications,
comme la base de donnÃ©es Hbase, qui fournit des services similaires au service
BigTable de Google. Hbase est une base de donnÃ©es en colonnes (dans la mouvance
NoSQL) qui sâ€€appuie sur le systÃ¨me de gestion de fichiers en cluster HDFS
pour le stockage de ses donnÃ©es. Hbase est notamment utile pour ceux qui ont
besoin dâ€€accÃ¨s alÃ©atoires en lecture/Ã©criture Ã de grands volumes de
donnÃ©es. La base intÃ¨gre des fonctions de compression et de traitement Â« inmemory Â».
Parmi les autres composants connus, on peut aussi citer la technologie
dâ€€apprentissage Apache Mahout, ainsi que la technologie dâ€€administration de
cluster Zookeeper. Zookeeper est lui-mÃªme un service distribuÃ© qui permet de
coordonner lâ€€ensemble des processus distribuÃ©s sur le cluster, mais aussi de
gÃ©rer les configurations de ses diffÃ©rents Ã©lÃ©ments.
Un Ã©cosystÃ¨me qui ne cesse de sâ€€enrichir
Signalons pour terminer que le pÃ©rimÃ¨tre dâ€€Hadoop continue de sâ€€Ã©largir,
les diffÃ©rents dÃ©veloppeurs de distributions Hadoop ajoutant progressivement
de nouveaux composants, outils ou langages afin dâ€€enrichir les composants de
base du framework. Cloudera a ainsi rÃ©cemment publiÃ© Impala, sa technologie de
query SQL massivement parallÃ¨le, pour le traitement en temps rÃ©el de donnÃ©es
stockÃ©es dans Hbase ou dans HDFS. Dans le cadre de son projet Hawq, Pivotal a,
quant Ã lui, portÃ© sa base de donnÃ©es massivement parallÃ¨le Greenplum sur
HDFS et Ã©tendu sa technologie de query aux donnÃ©es non structurÃ©es et semistructurÃ©es stockÃ©es sur HDFS. Et câ€€est sans compter sur les multiples
intÃ©grations rÃ©alisÃ©es par des acteurs des bases de donnÃ©es traditionnelles
et de lâ€€analytique, comme Teradata, Oracle ou Microsoftâ€¦ Un signe Ã©vident
du dynamisme de lâ€€Ã©cosystÃ¨me Hadoop, mais aussi de sa relative jeunesse.

SOLUTION COMMERCIALE
-------------------L'annÃ©e 2011 a vu l'Ã©mergence d'un nouveau champion dans le monde de la BI,
Hadoop, un framework distribuÃ© d'analyse de donnÃ©es nÃ© chez Yahoo, mais
inspirÃ© de concepts thÃ©orisÃ©s par Google. Hadoop est aujourd'hui utilisÃ© par
de nombreux gÃ©ants de l'internet pour leurs besoins massifs d'analyse de
donnÃ©es (les diffÃ©rents clusters Hadoop de Yahoo utilisent prÃ¨s de 10 000
serveurs, et FaceBook en fait aussi un usage massif), mais il commence aussi Ã
devenir populaire dans le monde des entreprises dans des secteurs comme la
distribution, les banques, les tÃ©lÃ©comsâ€¦
Venu du monde libre, Hadoop s'appuie sur des architectures distribuÃ©es typiques
des environnements HPC ou cloud et fonctionne sur des clusters massifs de

serveurs x86 qui fournissent Ã la fois des capacitÃ©s de calcul et de stockage.
La couche stockage repose par exemple sur un systÃ¨me de fichier en cluster
baptisÃ© HDFS qui a la charge de gÃ©rer les teraoctets ou petaoctets de donnÃ©es
rÃ©parties entre les nÅ€uds. La partie calcul est confiÃ©e Ã des composants
comme MapReduce, un framework de programmation distribuÃ©. Encore relativement
jeune, Hadoop fait l'objet de dÃ©veloppements intenses, portÃ©s notamment par
trois Ã©diteurs qui se sont donnÃ©s pour mission de rendre la technologie
"consommable" par de grandes entreprises. Ces trois sociÃ©tÃ©s sont Ã Hadoop ce
que Red Hat, Suse et Ubuntu sont Ã Linux. Tout en contribuant massivement aux
Ã©volutions du code du framework libre, elles axent leurs efforts sur le
packaging de la technologie - en produisant des distributions Hadoop "prÃªtes Ã
l'emploi" -, et se distinguent les unes des autres en greffant sur le cÅ€ur open
source des briques plus ou moins propriÃ©taires afin de simplifier
l'administration du framework ou de doper ses performances.

Cloudera : la premiÃ¨re distribution commerciale du marchÃ©
La plus connue des distributions Hadoop est sans doute Cloudera qui a Ã©tÃ© la
premiÃ¨re Ã faire parler d'elle en concoctant une distribution entreprise du
framework. BasÃ© dans la Silicon Valley et Ã San Francisco, Cloudera compte
parmi ses dirigeants des pionniers de Hadoop chez Yahoo. La firme s'est
rÃ©cemment illustrÃ©e en signant un accord avec Oracle pour la fourniture de sa
distribution dans l'appliance analytique exalytics du constructeur. Cloudera
avait prÃ©cÃ©demment signÃ© des accords pour la fourniture de sa distribution Ã
Dell et NetApp. Selon Cloudera, l'adoption rapide Hadoop s'explique par ses
attributs uniques par rapport aux technologies traditionnelles d'analyse de
donnÃ©es.
Comme l'explique Charles Zedlewski, le Vice-prÃ©sident produits de la firme,
"mon point de vue est que pour qu'une technologie radicalement nouvelle soit
adoptÃ©e par les entreprises elle doit Ãªtre 10 fois meilleures que les
technologies existantes. Si elle n'est que deux fois meilleure, les entreprises
prÃ©fÃ¨rent conserver les technologies qu'elles connaissent et qu'elles
maÃ®trisent. (â€¦) Hadoop brille car il est dix fois plus Ã©volutif ("scalable")
que les technologies en place, dix fois plus Ã©conomique et surtout dix fois
plus flexible. Il est bien sÃ»r plus mauvais que les technologies en place sur
bien des domaines. Il est moins mature, peu d'utilisateurs sont formÃ©s Ã son
utilisation et a un Ã©cosystÃ¨me d'applications plus limitÃ©. Mais pour certains
cas d'usage, Hadoop n'a pas de concurrent ce qui explique son adoption rapide".
Quelles caractÃ©ristiques font d'Hadoop un tel succÃ¨s ? "Historiquement pour
obtenir de meilleurs rÃ©sultats Ã partir d'un jeu de donnÃ©es, les entreprises
devaient utiliser des algorithmes plus sophistiquÃ©s, ce qui veut dire plus de
dÃ©veloppement et une armada de docteurs en statistiques et en mathÃ©matiques
pour imaginer ces algorithmes. Cela prend du temps et est coÃ»teux" explique
Charles Zedlewski. Hadoop aborde le problÃ¨me diffÃ©remment. Avec Hadoop, au
lieu d'attaquer le problÃ¨me avec plus d'ingÃ©nieurs, vous augmentez tout
simplement la taille de votre jeu de donnÃ©es. La tendance actuelle dans le
monde du traitement de donnÃ©es et de l'apprentissage est que dans la plupart
des cas, l'utilisation de jeux de donnÃ©es plus volumineux produit de meilleurs
rÃ©sultats que l'usage d'algorithmes plus sophistiquÃ©s."
C'est particuliÃ¨rement vrai pour des applications comme l'analyse de risques,
l'analyse de menaces, l'analyse de fraudes ou de crÃ©dit. De plus pour ce type
d'application la flexibilitÃ© d'Hadoop et reine. Il n'est en effet pas
nÃ©cessaire que les donnÃ©es utilisÃ©es se conforment Ã des schÃ©mas
prÃ©dÃ©finis, contrairement aux datawarehouse traditionnels.
Cloudera s'appuie sur un modÃ¨le 100 % open source et tire l'essentiel de ses
revenus de ses activitÃ©s de conseil, d'intÃ©gration et de support.
MapR : Un modÃ¨le propriÃ©taire et l'aval d'EMC

MapR, basÃ© Ã San Jose, a fait un choix radicalement diffÃ©rent. La sociÃ©tÃ©,
fondÃ©e il y a un peu plus de trois ans, a fait le choix de combiner un ensemble
de technologies propriÃ©taires avec certaines portions du framework libre Hadoop
pour produire sa distribution. L'Ã©diteur a ainsi dÃ©veloppÃ© sa propre couche
de stockage (baptisÃ©e MapR Lockless Storage Services) en lieu et place du
systÃ¨me de fichiers HDFS, habituellement utilisÃ© par les distributions Hadoop
- c'est d'ailleurs cette caractÃ©ristique qui a notamment sÃ©duit EMC qui a
conclu un accord de revente stratÃ©gique avec MapR.
Ce filesystem en cluster, qui maintient une compatibilitÃ© totale avec les API
d'HDFS, permet Ã MapR de revendiquer des caractÃ©ristiques uniques tels qu'une
plus grande rÃ©silience (la fonction de "namenode" est distribuÃ©e entre les
nÅ“uds), le support des snapshot, du mirroring et du partitionnement, mais aussi
un accÃ¨s natif en mode NFS au filesystem. Une autre nouveautÃ© est l'aptitude
Ã verser des donnÃ©es en continu dans le file system, contrairement Ã HDFS qui
fonctionne en mode append (ou ajout). On peut ainsi envisager de lancer des
traitements en quasi-temps rÃ©el au fur et Ã mesure de l'ingestion de nouvelles
donnÃ©es.
MapR revendique enfin des performances trÃ¨s supÃ©rieures Ã celles de ses
concurrents. La distribution de l'Ã©diteur est proposÃ©e dans une Ã©dition
gratuite mais "limitÃ©e" - certaines fonctions de sont pas accessibles)
baptisÃ©e M3. La dÃ©clinaison entreprise, qui inclut l'ensemble des fonctions
ainsi que le support est quant Ã elle baptisÃ©e M5 (la fascination des
fondateurs pour l'ingÃ©nierie d'une certaine marque automobile bavaroise ne
serait pas Ã©trangÃ¨re au choix de ces appellationsâ“¦).
HortonWorks : nÃ© de la division Hadoop de Yahoo
Enfin, le dernier arrivÃ© sur la scÃ¨ne Hadoop, HortonWorks, n'est rien de moins
qu'une "spin-off" de la division Hadoop de Yahoo, oÃ¹ est nÃ© Hadoop. Comme
Cloudera, HortonWorks s'appuie sur un modÃ¨le 100 % open source pour sa
distribution. ArrivÃ© en retard sur le marchÃ© commercial, HortonWorks ne
devrait finalement livrer sa premiÃ¨re distribution, baptisÃ©e HDP1 qu'au
premier trimestre 2012. HDP1 s'appuiera sur le cÅ“ur Hadoop 0.20.205 (ui est la
base de la premiÃ¨re version officielle du framework).
Mais la firme entend se rattraper rapidement et prÃ©voit une version 2,
baptisÃ©e HDP2 pour le troisiÃ¨me trimestre. Cette version de la distribution
s'appuiera sur Hadoop 0.23. Pour l'instant encore en version Alpha, cette
version d'Hadoop devrait probablement servir de base Ã la prochaine
gÃ©nÃ©ration du framework. Elle apportera par exemple des capacitÃ©s de
fÃ©dÃ©ration de clusters HDFS (par exemple pour fÃ©dÃ©rer des clusters utilisant
des nÅ“uds diffÃ©rents). Elle devrait aussi Ã©liminer certaines des restrictions
actuelles en matiÃ¨re de name node d'HDFS. L'autre nouveautÃ© importante sera
l'arrivÃ©e d'une nouvelle mouture de MapReduce (nom de code YARN), qui sÃ©parera
la gestion de ressources de la gestion des jobs (job scheduling). Cette mouture
devrait notamment se traduire par des gains importants en matiÃ¨re de
performances, avec des gains moyens de 100% sur l'ensemble des tÃ¢ches.
Un Ã©cosystÃ¨me en pleine explosion
Si l'agitation est palpable dans le monde des distributions Hadoop, c'est aussi
le cas pour l'Ã©cosystÃ¨me d'Ã©diteurs autour de la distribution. Tous les
gÃ©ants de l'industrie ont ainsi annoncÃ© un support d'Hadoop. On le notait
prÃ©cedemment, Dell, Netapp et Oracle ont signÃ© avec Cloudera tandis qu'EMC
optait pour MapR. Microsoft, de son cÃ´tÃ© prÃ©voit d'ajouter le support
d'Hadoop Ã Azure au premier semestre dans le cadre d'une collaboration avec
HortonWorks. Mais le plus Ã©tonnant est sans doute l'enthousiasme suscitÃ© par
la technologie chez les gÃ©ants du dÃ©cisionnel et des outils analytiques comme
GreenPlum, Teradata, Informatica, Vertica (HP) et chez les spÃ©cialistes du
dÃ©cisionnel libre comme Talend, Jaspersoft ou Pentaho. Autant de fournisseurs
qui en interfaÃ§ant leurs outils Ã Hadoop contribuent Ã une maturation rapide

de l'Ã©cosystÃ¨me d'outils autour de la distribution.

DEFINITIONS
---------Datawarehouse
Le lieu de stockage intermÃ©diaire des diffÃ©rentes donnÃ©es en vue de la
constitution du systÃ¨me d'information dÃ©cisionnel est appelÃ© entrepÃ´t de
donnÃ©es (en anglais datawarehouse).
Le datawarehouse est ainsi le lieu unique de consolidation de l'ensemble des
donnÃ©es de l'entreprises. Le crÃ©ateur du concept de DataWareHouse, Bill Inmon,
le dÃ©finit comme suit :
Â« Un datawarehouse est une collection de donnÃ©es thÃ©matiques,
intÃ©grÃ©es, non volatiles et historisÃ©es pour la prise de dÃ©cisions. Â»
Ses principales caractÃ©ristiques sont donc les suivantes :
Le datawarehouse est orientÃ© sujets, cela signifie que les donnÃ©es collectÃ©es
doivent Ãªtre orientÃ©es Â« mÃ©tier Â» et donc triÃ©es par thÃ¨me
Le datawarehouse est composÃ© de donnÃ©es intÃ©grÃ©es, c'est-Ã -dire qu'un Â«
nettoyage Â» prÃ©alable des donnÃ©es est nÃ©cessaire dans un souci de
rationnalisation et de normalisation
Les donnÃ©es du datawarehouse sont non volatiles ce qui signifie qu'une donnÃ©e
entrÃ©e dans l'entrepÃ´t l'est pour de bon et n'a pas vocation Ã Ãªtre
supprimÃ©e
Les donnÃ©es du datawarehouse doivent Ãªtre historisÃ©es, donc datÃ©es
Datamart
Le terme Datamart (littÃ©ralement magasin de donnÃ©es) dÃ©signe un sous-ensemble
du datawarehouse contenant les donnÃ©es du datawarehouse pour un secteur
particulier de l'entreprise (dÃ©partement, direction, service, gamme de produit,
etc.). On parle ainsi par exemple de DataMart Marketing, DataMart
Commercial, ...

Aqui hadoop draft

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Aqui hadoop draft

Similaire à Aqui hadoop draft (20)

Aqui hadoop draft