Wie geht ein Unternehmen im Zeitalter des Web 2.0 mit riesigen, unstrukturierten Datenmengen um? Dank einer Einladung der grössten Internetagentur der Schweiz, Namics, durften wir zu diesem brandaktuellen Thema am 09.09.2011 im Rahmen ihres alljährlichen Weiterbildungsevents referieren. Unser Architect Christian Gügi sprach über das Thema “Big Data im Unternehmenseinsatz mit Hadoop”.
Zum Inhalt:
Überall auf der Welt trafen sich zum NoSQL Summer 2010 Interessierte, um Papers zum Thema NoSQL zu lesen, zu verstehen und zu diskutieren. Dazu zählten insbesondere die Papers über Google’s Chubby, MapReduce & BigTable aus dem Jahr 2006, aber auch Cassandra (Facebook), (Dynamo) Amazon, Hadoop (Apache) uvm. In der Zwischenzeit hat sich das Themengebiet ausgedehnt, ein Markt wächst, immer mehr Produkte etablieren sich und viele Unternehmen greifen das Thema auf. NoSQL ist kein Buzz mehr. Aber was versteht man unter NoSQL, wann und wofür wird es eingesetzt und welche Produkte gibt es? Im Vortrag werden diese Fragestellungen anhand von Hadoop und Lily erläutert und damit der Bogen zu aktuellen Content Management Systemen geschlagen.
4. About MeMo News AG
Data Information Analyse und Ausgabe und
1
Crawling
2 Processing
3 Personalisierung
4 Weiterverarbeitung
Veröffentlichungen Die Rohdaten Individuelle Der Kunde greift
in etablierten und werden Suchagenten auf die
sozialen Medien kategorisiert filtern in Echtzeit Ergebnisse zu,
werden laufend und indiziert. die für den um sie weiter zu
geladen und von Kunden analysieren und
Spam gereinigt. relevanten zu verarbeiten.
Treffer heraus.
09.09.11
8. Was ist NoSQL?
• Term „NoSQL“ ist erst 2 Jahre alt
• kein Mainstream
• Kein Produkt, keine Firma, keine Technologie
• Ist eine Bewegung, eine neu Art Datenbanken
voranzutreiben
• Basiert auf nicht-relationale Ansätzen
09.09.11
9. Warum NoSQL?
• Als Ansatz zur Lösung von (ungelösten) web
scale* Problemen im Umgang mit
unstrukturierten, massiven Datenmengen
• Hauptsächlich motiviert durch Web 2.0
• Es geht hauptsächlich um
Scaling, Distribution und BigData
* Web Scale: Highly Available, Reliable, Transparent, High
Performance, Scalable, Accessible, Secure, Usable, and
Inexpensive
http://community.oclc.org/engineering/2009/05/what-is-web-scale.html 09.09.11
10. Ansätze von NoSQL?
• Von Generalisierung zur Spezialisierung
• Keine Tabellenschemas
• Keine Relationen, um JOINs zu vermeiden
• Horizontal skalieren
• à weg von ACID, hin zu CAP
Spezifische Probleme mit spezialisierten Lösungen
angehen
09.09.11
12. ACID
Eigenschaften von RDMS :
Atomicity – ganz oder gar nicht
Consistency – gewährleistet Integrität
Isolation – Kapselung gleichzeitiger T.
Durability – Persistenz aller Änderungen
Skalieren vertikal
-> grosse Datenbanken ->
teuer
14. Kategorien
Relational NoSQL
3 neue NoSQL Kategorien
Relatio Object Docum Graph Wide Key
nal oriente Orient colum value
Store d Store
ent
Store
... ed
Store
n
Store Store
• MySQL • db4o • Jackrabbit • Neo4j • BigTable • MemcacheDB
• PostgreSQL • Versant • couchDB • Sones • HBase • Redis
• Oracle • Objectivity • MongoDB • Trinity • Hypertable • Casandra
• MS Server • Lotus Notes • DEX • Dynamo
• Riak
09.09.11
15. NoSQL – Future?
• Noch immer ungelöst
• (Fulltext) Search & Find
• Distributed Index Storage
• (Structured) Query Language
In Zukunft gibt’s kein NoSQL mehr, nur noch spezialisierte
Datenbanken.
09.09.11
17. Apache™ Hadoop™
• Apache Projekt, open-source
• Software für reliable, scalable, distributed
computing
• Basiert auf Google Papers /2006
• Implementiert BigTable, Chubby, GFS
• Beinhaltet NoSQL Datenbank(en)
„Apache Hadoop takes top prize at Media Guardian Innovation Awards.
Data management software described by judges as 'Swiss army knife of
the 21st century' wins innovator of the year award“
Marie Winckler, guardian.co.uk, Friday 25 March 2011 09.09.11
18. Apache™ Hadoop™
Data Accessing Framework
Pig Hive Avro
Data Mining Framework NoSQL Databases
Mahout Cassandra HBase
Orchestration Framework
Backup & Recovery
Zookeeper Chukwa
Management
Deployment
Data Storage Framework Data Processing Framework
Security
HDFS MapReduce
JVM
Operating System - Linux
Commodity Hardware
09.09.11
21. The Age of Data
• Mehr & mehr Firmen adaptieren NoSQL
(meist interne Verwendung)
• Vielzahl an Produkten / Distributionen
• NoSQL wird Enterprise‘e
... Aber noch kein Mainstream
• Wie würde man Wikipedia im Jahr 2011
implementieren?
09.09.11
22. Lily
• „Lily is Smart Data, at Scale, made Easy“
• Content und Data Repository
• Architektur ausgelegt für BigData
• Basiert auf NoSQL Ansätzen
• Core
• Store, Index und Search
• Add-On
• Data usage tracking, user profiling, analytics and
audience recommendations
http://outaerthought.org/site/products/lily.html 09.09.11
23. Lily Architektur
Lily CMS Core CMS
Hadoop Solr Funktionaliäten:
HBase
Store, Index &
MapReduce HDFS
Serach
Add-on‘s: Data usage Hybrid Lösung
tracking, user profiling,
analytics and audience • Solr
recommendations
• Hadoop
• Lily Komponenten
09.09.11
25. Powered by Lily
• BBC
• BBC Live Services: powering social web
applications (tagging, commenting, ranking,
voting) for BBC websites
• Groupe Adeo
• large e-commerce and web project for global
retail
• Canadian Coast Guard
• e-Learning Material management system (LMS),
Competency-based Learning
http://outerthought.org/site/about/customers.html 09.09.11