Le téléchargement de votre SlideShare est en cours. ×
0
Le	  moteur	  de	  recherche,	  inspirateur	  technologique	           du	  Big	  Data	  ?	  	  Emmanuel	  Keller,	  CEO	 ...
Ainsi	  naquît	  Google…	                   Avril	  1998	  hEp://infolab.stanford.edu/pub/papers/google.pdf	  
Google	  1.0	  24	  millions	  de	  pages	  «	  It	  is	  foreseeable	  that	  by	  the	  year	  2000,	  a	  comprehensive...
Google	  1.0	                                          1997	  -­‐	  IBM	  Deskstar	  16GP	  «	  We	  intend	  to	  speed	 ...
Google	  1.0	  
Rappel	  Informa5que	  n.f.	  	  Science	  du	  traitement	  automaFque	  et	  raFonnel	  de	  linformaFon	  meLant	  en	 ...
L’art	  de	  jongler…	  
…c’est	  pas	  nouveau	  •  Bayer,	  Rudolf;	  McCreight,	  E.	  (July	  1970),	     Organizaon	  and	  Maintenance	  of	 ...
La	  structure	  en	  arbre	  Réduire	  le	  nombre	  de	  lectures	  physiques	  sur	  le	  disque	  dur	  
Une	  forêt	  d’arbres	  •  Un	  système	  de	  fichiers	  (FAT,	  NTFS,	  EXT3,	  ZFS)	     est	  avant	  tout	  une	  str...
Quand	  au	  calcul	  •  Les	  fondeurs	  peinent	  à	  suivre	  la	     loi	  de	  Moore:	  la	  technologie	  du	     si...
Distributed	  compung	  
Google	  2.0	  MapReduce:	  «	  Simplified	  Data	  Processing	  on	  Large	  Clusters	  »	  By	  Jeffrey	  Dean	  and	  San...
Map	  Reduce	  MAP	  Réparr	  la	  charge	  sur	  plusieurs	  nœuds	  	  (WORK)	  Chaque	  nœud	  travaille	  sur	  une	  ...
No	  SQL	  Database	  •  Une	  approche	  simplifiée	  de	  l’accès	  aux	  données	  •  Principe	  Clé	  /	  Valeur	  •  S...
Vers	  un	  nouveau	  paradigme	  •    Applicaons	  (Pentaho)	  •    JAVA,	  C	  /	  C++	  ?	  L	  •    API,	  API,	  API...
Q	  	  &	  	  A	     Merci	  pour	  votre	  aEenon	                       	  ekeller@open-­‐search-­‐server.com	  
Prochain SlideShare
Chargement dans... 5
×

OWF12/BIG DATA OWF OpenSearchServer light

319

Published on

0 commentaires
0 mentions J'aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Be the first to like this

Aucun téléchargement
Vues
Total des vues
319
Sur Slideshare
0
À partir des ajouts
0
Nombre d'ajouts
0
Actions
Partages
0
Téléchargements
6
Commentaires
0
J'aime
0
Ajouts 0
No embeds

No notes for slide

Transcript of "OWF12/BIG DATA OWF OpenSearchServer light"

  1. 1. Le  moteur  de  recherche,  inspirateur  technologique   du  Big  Data  ?    Emmanuel  Keller,  CEO  OpenSearchServer  
  2. 2. Ainsi  naquît  Google…   Avril  1998  hEp://infolab.stanford.edu/pub/papers/google.pdf  
  3. 3. Google  1.0  24  millions  de  pages  «  It  is  foreseeable  that  by  the  year  2000,  a  comprehensive  index  of  the  Web  will  contain  over  a  billion  documents.  »  PageRank  «  Also,  a  PageRank  for  26  million  web  pages  can  be  computed  in  a  few  hours  on  a  medium  size  workstaFon.  »    
  4. 4. Google  1.0   1997  -­‐  IBM  Deskstar  16GP  «  We  intend  to  speed  up  Google  considerably  through  distribuFon  and  hardware,  soHware,  and  algorithmic  improvements  »  
  5. 5. Google  1.0  
  6. 6. Rappel  Informa5que  n.f.    Science  du  traitement  automaFque  et  raFonnel  de  linformaFon  meLant  en  œuvre  des  matériels  et  des  logiciels.  
  7. 7. L’art  de  jongler…  
  8. 8. …c’est  pas  nouveau  •  Bayer,  Rudolf;  McCreight,  E.  (July  1970),   Organizaon  and  Maintenance  of  Large   Ordered  Indices,  Mathemacal  •  Bayer,  Rudolf  (1971),  "Binary  B-­‐Trees  for   Virtual  Memory  »  
  9. 9. La  structure  en  arbre  Réduire  le  nombre  de  lectures  physiques  sur  le  disque  dur  
  10. 10. Une  forêt  d’arbres  •  Un  système  de  fichiers  (FAT,  NTFS,  EXT3,  ZFS)   est  avant  tout  une  structure  en  arbre.  •  Les  bases  de  données  basent  leurs  index  sur  la   taille  des  blocs  du  disque  dur  •  La  mémoire  virtuelle  
  11. 11. Quand  au  calcul  •  Les  fondeurs  peinent  à  suivre  la   loi  de  Moore:  la  technologie  du   silicium  aEeint  ses  limites  •  Les  cœurs  mulples  compliquent   les  développements:  obligaon   d’intégrer  le  parallélisme  
  12. 12. Distributed  compung  
  13. 13. Google  2.0  MapReduce:  «  Simplified  Data  Processing  on  Large  Clusters  »  By  Jeffrey  Dean  and  Sanjay  Ghemawat  (Google  Inc.)  San  Francisco,  CA,  December,  2004  hEp://research.google.com/archive/mapreduce.html    Hadoop:  Implémentaon  open  source  sous  licence  Apache  2.0    
  14. 14. Map  Reduce  MAP  Réparr  la  charge  sur  plusieurs  nœuds    (WORK)  Chaque  nœud  travaille  sur  une  pare  des  données    REDUCE  Le  résultat  de  chaque  nœud  est  consolidé  pour  constuer   Source:  hEp://www.gridgainsystems.com  le  résultat  final  
  15. 15. No  SQL  Database  •  Une  approche  simplifiée  de  l’accès  aux  données  •  Principe  Clé  /  Valeur  •  Se  «  cloudise  »  très  bien  Redis,  HBase,  Cassandra,  Mongo  DB,  MemCache  DB,  Berkeley  DB,  Big  Table,…  
  16. 16. Vers  un  nouveau  paradigme  •  Applicaons  (Pentaho)  •  JAVA,  C  /  C++  ?  L  •  API,  API,  API,  API…  •  Système  de  fichiers   –  XtreemFS   –  Sector/Sphere   –  Oracle  Clustered  File   System  (GPL  !!!!)   –  Disques  SSD  
  17. 17. Q    &    A   Merci  pour  votre  aEenon    ekeller@open-­‐search-­‐server.com  
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×