OWF12/BIG DATA OWF OpenSearchServer light

•

0 j'aime•559 vues

Paris Open Source Summit

Le
moteur
de
recherche,

inspirateur
technologique

du
Big
Data
?

Emmanuel
Keller,
CEO
OpenSearchServer

Ainsi
naquît
Google…

Avril
1998

hEp://infolab.stanford.edu/pub/papers/google.pdf

Google
1.0

24
millions
de
pages

«
It
is
foreseeable
that
by
the
year
2000,
a

comprehensive
index
of
the
Web
will
contain

over
a
billion
documents.
»

PageRank

«
Also,
a
PageRank
for
26
million
web
pages
can

be
computed
in
a
few
hours
on
a
medium
size

workstaFon.
»

Google
1.0

1997
-‐
IBM
Deskstar
16GP

«
We
intend
to
speed
up
Google
considerably

through
distribuFon
and
hardware,
soHware,

and
algorithmic
improvements
»

Rappel

Informa5que
n.f.

Science
du
traitement
automaFque

et
raFonnel
de
l'informaFon

meLant
en
œuvre
des
matériels
et

des
logiciels.

…c’est
pas
nouveau

•  Bayer,
Rudolf;
McCreight,
E.
(July
1970),

Organizaon
and
Maintenance
of
Large

Ordered
Indices,
Mathemacal

•  Bayer,
Rudolf
(1971),
"Binary
B-‐Trees
for

Virtual
Memory
»

La
structure
en
arbre

Réduire
le
nombre

de
lectures
physiques

sur
le
disque
dur

Une
forêt
d’arbres

•  Un
système
de
ﬁchiers
(FAT,
NTFS,
EXT3,
ZFS)

est
avant
tout
une
structure
en
arbre.

•  Les
bases
de
données
basent
leurs
index
sur
la

taille
des
blocs
du
disque
dur

•  La
mémoire
virtuelle

Quand
au
calcul

•  Les
fondeurs
peinent
à
suivre
la

loi
de
Moore:
la
technologie
du

silicium
aEeint
ses
limites

•  Les
cœurs
mulples
compliquent

les
développements:
obligaon

d’intégrer
le
parallélisme

Google
2.0

MapReduce:

«
Simpliﬁed
Data
Processing
on
Large
Clusters
»

By
Jeﬀrey
Dean
and
Sanjay
Ghemawat
(Google
Inc.)

San
Francisco,
CA,
December,
2004

hEp://research.google.com/archive/mapreduce.html

Hadoop:
Implémentaon
open
source
sous

licence
Apache
2.0

Map
Reduce

MAP

Réparr
la
charge
sur

plusieurs
nœuds

(WORK)

Chaque
nœud
travaille
sur

une
pare
des
données

REDUCE

Le
résultat
de
chaque
nœud

est
consolidé
pour
constuer
Source:
hEp://www.gridgainsystems.com

le
résultat
ﬁnal

No
SQL
Database

•  Une
approche
simpliﬁée
de
l’accès
aux
données

•  Principe
Clé
/
Valeur

•  Se
«
cloudise
»
très
bien

Redis,
HBase,
Cassandra,

Mongo
DB,
MemCache
DB,

Berkeley
DB,
Big
Table,…

Vers
un
nouveau
paradigme

•  Applicaons
(Pentaho)

•  JAVA,
C
/
C++
?
L

•  API,
API,
API,
API…

•  Système
de
ﬁchiers

–  XtreemFS

–  Sector/Sphere

–  Oracle
Clustered
File

System
(GPL
!!!!)

–  Disques
SSD

Q

&

A

Merci
pour
votre
aEenon

ekeller@open-‐search-‐server.com

Contenu connexe

Tendances

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic

Stats web avec Hive chez Scoop.ithibnico

Spark (v1.3) - Présentation (Français)Alexis Seigneurin

Feedback du EMEA Hadoop Summit 2013Vincent Heuschling

MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin

PostgreSQL, plus qu'une base de données, une plateforme aux multiples usagesOpen Source Experience

Introduction sparkProbst Ludwine

Spark - Alexis Seigneurin (Français)Alexis Seigneurin

BigData_Chp5: Putting it all togetherLilia Sfaxi

Présentation Big Data et REX HadoopJoseph Glorieux

HADOOP + RCdiscount

Presentation Hadoop QuébecMathieu Dumoulin

Spark - Ippevent 19-02-2015Alexis Seigneurin

HUG France - 20160114 industrialisation_process_big_data CanalPlusModern Data Stack France

Hadoop unitKhanh Maudoux

Tech day hadoop, SparkArrow-Institute

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France

HadoopInstitut supérieur des études technologiques de Radès

HadoopInes Slimene

Spark SQL principes et fonctionsMICHRAFY MUSTAFA

Tendances (20)

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark

Stats web avec Hive chez Scoop.it

Spark (v1.3) - Présentation (Français)

Feedback du EMEA Hadoop Summit 2013

MapReduce: Traitement de données distribué à grande échelle simplifié

PostgreSQL, plus qu'une base de données, une plateforme aux multiples usages

Introduction spark

Spark - Alexis Seigneurin (Français)

BigData_Chp5: Putting it all together

Présentation Big Data et REX Hadoop

HADOOP + R

Presentation Hadoop Québec

Spark - Ippevent 19-02-2015

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Hadoop unit

Tech day hadoop, Spark

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Hadoop

Spark SQL principes et fonctions

En vedette

Guia wordCarlos Zambrano

Bluenove_Yoann Gaudry_Open DataMetro'num 2011

Evaluation4jackoconnor3210

OWF13 - Open hardwareParis Open Source Summit

L'approche OpenDataSoft : API FirstOpenDataSoft

OpenDataSoft au Workshop Open Data Cap DigitalOpenDataSoft

L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"Vladimir Moshnyager

En vedette (7)

Guia word

Bluenove_Yoann Gaudry_Open Data

Evaluation4

OWF13 - Open hardware

L'approche OpenDataSoft : API First

OpenDataSoft au Workshop Open Data Cap Digital

L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"

Similaire à OWF12/BIG DATA OWF OpenSearchServer light

P8 03 presentationrajiasellami

20160216 - From BigData to BigProcessingPierre-Marie Brunet

Big data: NoSQL comme solutionJEMLI Fathi

Analytics et Big Data, une histoire de cubes...Mathias Kluba

Social Network Analysis Utilizing Big Data TechnologyImad ALILAT

Spad big data - sfds - 2016Julien BLAIZE

Cours Big Data Chap4 - SparkAmal Abid

Techday Arrow Group: Hadoop & le Big DataArrow Group

Quel hadoop (#quelhadoop)Romain Broussard

Soutenance ysancenelsonverdier

Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsENSET, Université Hassan II Casablanca

Distributed programing (hadoop && java) version finale.pptxAhmed rebai

Base de donnéesSignOrità Śoukâ

La "Data science" au service des entreprisesAymen ZAAFOURI

Hadoop Hbase - IntroductionBlandine Larbret

BigData_Technologies_PL.pdfMissaouiWissal

Afterwork hadoopOCTO Technology Suisse

BigData_Technologies_PL.pdfAhmedToujani1

Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT

Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft

Similaire à OWF12/BIG DATA OWF OpenSearchServer light (20)

P8 03 presentation

20160216 - From BigData to BigProcessing

Big data: NoSQL comme solution

Analytics et Big Data, une histoire de cubes...

Social Network Analysis Utilizing Big Data Technology

Spad big data - sfds - 2016

Cours Big Data Chap4 - Spark

Techday Arrow Group: Hadoop & le Big Data

Quel hadoop (#quelhadoop)

Soutenance ysance

Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams

Distributed programing (hadoop && java) version finale.pptx

Base de données

La "Data science" au service des entreprises

Hadoop Hbase - Introduction

BigData_Technologies_PL.pdf

Afterwork hadoop

BigData_Technologies_PL.pdf

Big Data ou comment retrouver une aiguille dans une botte de foin

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure

Plus de Paris Open Source Summit

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...Paris Open Source Summit

#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...Paris Open Source Summit

#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...Paris Open Source Summit

#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, ArduinoParis Open Source Summit

#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...Paris Open Source Summit

#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...Paris Open Source Summit

#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, ZabbixParis Open Source Summit

#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, InriaParis Open Source Summit

#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...Paris Open Source Summit

#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...Paris Open Source Summit

#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...Paris Open Source Summit

#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...Paris Open Source Summit

#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...Paris Open Source Summit

#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...Paris Open Source Summit

#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...Paris Open Source Summit

#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...Paris Open Source Summit

#OSSPARIS19 - Table ronde : souveraineté des données Paris Open Source Summit

#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...Paris Open Source Summit

#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...Paris Open Source Summit

#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...Paris Open Source Summit

Plus de Paris Open Source Summit (20)

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...

#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...

#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...

#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino

#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...

#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...

#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix

#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria

#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...

#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...

#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...

#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...

#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...

#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...

#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...

#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...

#OSSPARIS19 - Table ronde : souveraineté des données

#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...

#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...

#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...

OWF12/BIG DATA OWF OpenSearchServer light

1. Le moteur de recherche, inspirateur technologique du Big Data ? Emmanuel Keller, CEO OpenSearchServer

2. Ainsi naquît Google… Avril 1998 hEp://infolab.stanford.edu/pub/papers/google.pdf

3. Google 1.0 24 millions de pages « It is foreseeable that by the year 2000, a comprehensive index of the Web will contain over a billion documents. » PageRank « Also, a PageRank for 26 million web pages can be computed in a few hours on a medium size workstaFon. »

4. Google 1.0 1997 -‐ IBM Deskstar 16GP « We intend to speed up Google considerably through distribuFon and hardware, soHware, and algorithmic improvements »

5. Google 1.0

6. Rappel Informa5que n.f. Science du traitement automaFque et raFonnel de l'informaFon meLant en œuvre des matériels et des logiciels.

7. L’art de jongler…

8. …c’est pas nouveau •  Bayer, Rudolf; McCreight, E. (July 1970), Organizaon and Maintenance of Large Ordered Indices, Mathemacal •  Bayer, Rudolf (1971), "Binary B-‐Trees for Virtual Memory »

9. La structure en arbre Réduire le nombre de lectures physiques sur le disque dur

10. Une forêt d’arbres •  Un système de ﬁchiers (FAT, NTFS, EXT3, ZFS) est avant tout une structure en arbre. •  Les bases de données basent leurs index sur la taille des blocs du disque dur •  La mémoire virtuelle

11. Quand au calcul •  Les fondeurs peinent à suivre la loi de Moore: la technologie du silicium aEeint ses limites •  Les cœurs mulples compliquent les développements: obligaon d’intégrer le parallélisme

12. Distributed compung

13. Google 2.0 MapReduce: « Simpliﬁed Data Processing on Large Clusters » By Jeﬀrey Dean and Sanjay Ghemawat (Google Inc.) San Francisco, CA, December, 2004 hEp://research.google.com/archive/mapreduce.html Hadoop: Implémentaon open source sous licence Apache 2.0

14. Map Reduce MAP Réparr la charge sur plusieurs nœuds (WORK) Chaque nœud travaille sur une pare des données REDUCE Le résultat de chaque nœud est consolidé pour constuer Source: hEp://www.gridgainsystems.com le résultat ﬁnal

15. No SQL Database •  Une approche simpliﬁée de l’accès aux données •  Principe Clé / Valeur •  Se « cloudise » très bien Redis, HBase, Cassandra, Mongo DB, MemCache DB, Berkeley DB, Big Table,…

16. Vers un nouveau paradigme •  Applicaons (Pentaho) •  JAVA, C / C++ ? L •  API, API, API, API… •  Système de ﬁchiers –  XtreemFS –  Sector/Sphere –  Oracle Clustered File System (GPL !!!!) –  Disques SSD

17. Q & A Merci pour votre aEenon ekeller@open-‐search-‐server.com

OWF12/BIG DATA OWF OpenSearchServer light

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (7)

Similaire à OWF12/BIG DATA OWF OpenSearchServer light

Similaire à OWF12/BIG DATA OWF OpenSearchServer light (20)

Plus de Paris Open Source Summit

Plus de Paris Open Source Summit (20)

OWF12/BIG DATA OWF OpenSearchServer light