OWF12/BIG DATA OWF OpenSearchServer light
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

OWF12/BIG DATA OWF OpenSearchServer light

on

  • 463 vues

 

Statistiques

Vues

Total des vues
463
Vues sur SlideShare
463
Vues externes
0

Actions

J'aime
0
Téléchargements
5
Commentaires
0

0 Ajouts 0

No embeds

Accessibilité

Catégories

Détails de l'import

Uploaded via as Adobe PDF

Droits d'utilisation

© Tous droits réservés

Report content

Signalé comme inapproprié Signaler comme inapproprié
Signaler comme inapproprié

Indiquez la raison pour laquelle vous avez signalé cette présentation comme n'étant pas appropriée.

Annuler
  • Full Name Full Name Comment goes here.
    Êtes-vous sûr de vouloir
    Votre message apparaîtra ici
    Processing...
Poster un commentaire
Modifier votre commentaire

OWF12/BIG DATA OWF OpenSearchServer light Presentation Transcript

  • 1. Le  moteur  de  recherche,  inspirateur  technologique   du  Big  Data  ?    Emmanuel  Keller,  CEO  OpenSearchServer  
  • 2. Ainsi  naquît  Google…   Avril  1998  hEp://infolab.stanford.edu/pub/papers/google.pdf  
  • 3. Google  1.0  24  millions  de  pages  «  It  is  foreseeable  that  by  the  year  2000,  a  comprehensive  index  of  the  Web  will  contain  over  a  billion  documents.  »  PageRank  «  Also,  a  PageRank  for  26  million  web  pages  can  be  computed  in  a  few  hours  on  a  medium  size  workstaFon.  »    
  • 4. Google  1.0   1997  -­‐  IBM  Deskstar  16GP  «  We  intend  to  speed  up  Google  considerably  through  distribuFon  and  hardware,  soHware,  and  algorithmic  improvements  »  
  • 5. Google  1.0  
  • 6. Rappel  Informa5que  n.f.    Science  du  traitement  automaFque  et  raFonnel  de  linformaFon  meLant  en  œuvre  des  matériels  et  des  logiciels.  
  • 7. L’art  de  jongler…  
  • 8. …c’est  pas  nouveau  •  Bayer,  Rudolf;  McCreight,  E.  (July  1970),   Organizaon  and  Maintenance  of  Large   Ordered  Indices,  Mathemacal  •  Bayer,  Rudolf  (1971),  "Binary  B-­‐Trees  for   Virtual  Memory  »  
  • 9. La  structure  en  arbre  Réduire  le  nombre  de  lectures  physiques  sur  le  disque  dur  
  • 10. Une  forêt  d’arbres  •  Un  système  de  fichiers  (FAT,  NTFS,  EXT3,  ZFS)   est  avant  tout  une  structure  en  arbre.  •  Les  bases  de  données  basent  leurs  index  sur  la   taille  des  blocs  du  disque  dur  •  La  mémoire  virtuelle  
  • 11. Quand  au  calcul  •  Les  fondeurs  peinent  à  suivre  la   loi  de  Moore:  la  technologie  du   silicium  aEeint  ses  limites  •  Les  cœurs  mulples  compliquent   les  développements:  obligaon   d’intégrer  le  parallélisme  
  • 12. Distributed  compung  
  • 13. Google  2.0  MapReduce:  «  Simplified  Data  Processing  on  Large  Clusters  »  By  Jeffrey  Dean  and  Sanjay  Ghemawat  (Google  Inc.)  San  Francisco,  CA,  December,  2004  hEp://research.google.com/archive/mapreduce.html    Hadoop:  Implémentaon  open  source  sous  licence  Apache  2.0    
  • 14. Map  Reduce  MAP  Réparr  la  charge  sur  plusieurs  nœuds    (WORK)  Chaque  nœud  travaille  sur  une  pare  des  données    REDUCE  Le  résultat  de  chaque  nœud  est  consolidé  pour  constuer   Source:  hEp://www.gridgainsystems.com  le  résultat  final  
  • 15. No  SQL  Database  •  Une  approche  simplifiée  de  l’accès  aux  données  •  Principe  Clé  /  Valeur  •  Se  «  cloudise  »  très  bien  Redis,  HBase,  Cassandra,  Mongo  DB,  MemCache  DB,  Berkeley  DB,  Big  Table,…  
  • 16. Vers  un  nouveau  paradigme  •  Applicaons  (Pentaho)  •  JAVA,  C  /  C++  ?  L  •  API,  API,  API,  API…  •  Système  de  fichiers   –  XtreemFS   –  Sector/Sphere   –  Oracle  Clustered  File   System  (GPL  !!!!)   –  Disques  SSD  
  • 17. Q    &    A   Merci  pour  votre  aEenon    ekeller@open-­‐search-­‐server.com