• J'aime
OWF12/BIG DATA OWF OpenSearchServer light
Prochain SlideShare
Chargement dans... 5
×

OWF12/BIG DATA OWF OpenSearchServer light

  • 269 vues
Transféré le

 

  • Full Name Full Name Comment goes here.
    Êtes-vous sûr de vouloir
    Votre message apparaîtra ici
    Soyez le premier à commenter
    Be the first to like this
Aucun téléchargement

Vues

Total des vues
269
Sur Slideshare
0
À partir des ajouts
0
Nombre d'ajouts
0

Actions

Partages
Téléchargements
5
Commentaires
0
J'aime
0

Ajouts 0

No embeds

Signaler un contenu

Signalé comme inapproprié Signaler comme inapproprié
Signaler comme inapproprié

Indiquez la raison pour laquelle vous avez signalé cette présentation comme n'étant pas appropriée.

Annuler
    No notes for slide

Transcript

  • 1. Le  moteur  de  recherche,  inspirateur  technologique   du  Big  Data  ?    Emmanuel  Keller,  CEO  OpenSearchServer  
  • 2. Ainsi  naquît  Google…   Avril  1998  hEp://infolab.stanford.edu/pub/papers/google.pdf  
  • 3. Google  1.0  24  millions  de  pages  «  It  is  foreseeable  that  by  the  year  2000,  a  comprehensive  index  of  the  Web  will  contain  over  a  billion  documents.  »  PageRank  «  Also,  a  PageRank  for  26  million  web  pages  can  be  computed  in  a  few  hours  on  a  medium  size  workstaFon.  »    
  • 4. Google  1.0   1997  -­‐  IBM  Deskstar  16GP  «  We  intend  to  speed  up  Google  considerably  through  distribuFon  and  hardware,  soHware,  and  algorithmic  improvements  »  
  • 5. Google  1.0  
  • 6. Rappel  Informa5que  n.f.    Science  du  traitement  automaFque  et  raFonnel  de  linformaFon  meLant  en  œuvre  des  matériels  et  des  logiciels.  
  • 7. L’art  de  jongler…  
  • 8. …c’est  pas  nouveau  •  Bayer,  Rudolf;  McCreight,  E.  (July  1970),   Organizaon  and  Maintenance  of  Large   Ordered  Indices,  Mathemacal  •  Bayer,  Rudolf  (1971),  "Binary  B-­‐Trees  for   Virtual  Memory  »  
  • 9. La  structure  en  arbre  Réduire  le  nombre  de  lectures  physiques  sur  le  disque  dur  
  • 10. Une  forêt  d’arbres  •  Un  système  de  fichiers  (FAT,  NTFS,  EXT3,  ZFS)   est  avant  tout  une  structure  en  arbre.  •  Les  bases  de  données  basent  leurs  index  sur  la   taille  des  blocs  du  disque  dur  •  La  mémoire  virtuelle  
  • 11. Quand  au  calcul  •  Les  fondeurs  peinent  à  suivre  la   loi  de  Moore:  la  technologie  du   silicium  aEeint  ses  limites  •  Les  cœurs  mulples  compliquent   les  développements:  obligaon   d’intégrer  le  parallélisme  
  • 12. Distributed  compung  
  • 13. Google  2.0  MapReduce:  «  Simplified  Data  Processing  on  Large  Clusters  »  By  Jeffrey  Dean  and  Sanjay  Ghemawat  (Google  Inc.)  San  Francisco,  CA,  December,  2004  hEp://research.google.com/archive/mapreduce.html    Hadoop:  Implémentaon  open  source  sous  licence  Apache  2.0    
  • 14. Map  Reduce  MAP  Réparr  la  charge  sur  plusieurs  nœuds    (WORK)  Chaque  nœud  travaille  sur  une  pare  des  données    REDUCE  Le  résultat  de  chaque  nœud  est  consolidé  pour  constuer   Source:  hEp://www.gridgainsystems.com  le  résultat  final  
  • 15. No  SQL  Database  •  Une  approche  simplifiée  de  l’accès  aux  données  •  Principe  Clé  /  Valeur  •  Se  «  cloudise  »  très  bien  Redis,  HBase,  Cassandra,  Mongo  DB,  MemCache  DB,  Berkeley  DB,  Big  Table,…  
  • 16. Vers  un  nouveau  paradigme  •  Applicaons  (Pentaho)  •  JAVA,  C  /  C++  ?  L  •  API,  API,  API,  API…  •  Système  de  fichiers   –  XtreemFS   –  Sector/Sphere   –  Oracle  Clustered  File   System  (GPL  !!!!)   –  Disques  SSD  
  • 17. Q    &    A   Merci  pour  votre  aEenon    ekeller@open-­‐search-­‐server.com