2. 29.11.10 Status Quo und Zukunft von AANs 2
Inhalt
Artefakt-Akteur-Netzwerke
Netzwerk- und Dokumentanalyse
Eingesetzte Technologien
Status Quo, Probleme, Lösungen
3. 29.11.10 Status Quo und Zukunft von AANs 3
Akteur-Netzwerk
Soziales Netzwerk: Eine Menge von
Beziehungen, die zwischen Personen
bestehen, und Rückschlüsse auf das
Sozialverhalten der Personen erlauben
Beispiele: XING, studiVZ
Akteur-Netzwerk: Abstraktion eines Sozialen
Netzwerkes
Beziehungen zwischen Akteuren werden als
ACT2
Beziehungen bezeichnet
Mögliches Vokabular: Friend-Of-A-Friend
4. 29.11.10 Status Quo und Zukunft von AANs 4
Artefakt-Netzwerk
Netzwerk von Artefakten die miteinander in
Beziehung stehen
Artefakt: Verallgemeinerung des
Dokumentbegriffs
Beziehungen zwischen Artefakten werden als
ART2
Beziehungen bezeichnet
Mögliche Vokabulare:
Semantically-Interlinked Online Communities
(SIOC)
Dublin Core Metadata Initiative (DCMI)
5. 29.11.10 Status Quo und Zukunft von AANs 5
Artefact-Akteur-Netzwerke (1)
Konsolidierung von
Artefakt-Netzwerken
und Akteur-
Netzwerken
Erlauben von
zusätzlichen Actor-
Artefact und Artefact-
Actor-Beziehungen
7. 29.11.10 Status Quo und Zukunft von AANs 7
Überblick
Artefakt-Akteur-Netzwerke
Netzwerk- und Dokumentanalyse
Eingesetzte Technologien
Status Quo, Probleme, Lösungen
8. 29.11.10 Status Quo und Zukunft von AANs 8
Netzwerkanalyse (1)
Die Dichte gibt die Stärke der Verbundenheit
eines Netzwerkes an
Die Zentralität eines Knotens gibt an wie stark
dieser in das Gesamtnetzwerk eingebunden ist
Degree-Zentralität
Betweenness-Zentralität
Dichte=
Anzahl Kanten
Anzahl möglicherKanten
9. 29.11.10 Status Quo und Zukunft von AANs 9
Netzwerkanalyse (2)
Degree-Zentralität
Ein Knoten ist zentral wenn er mit möglichst vielen
anderen Knoten in Beziehung steht
Betweenness-Zentralität
Ein Knoten ist zentral wenn er auf vielen kürzesten
Wegen zwischen Knotenpaaren vorkommt
11. 29.11.10 Status Quo und Zukunft von AANs 11
Dokumentanalyse (1)
Jedes Dokument wird durch eine Menge von
Schlüsselwörtern charakterisiert
Die Relevanz eines Schlüsselwortes sagt aus
wie gut dieses das jeweilige Dokument
beschreibt
Schlüsselwörter können entweder durch
Benutzer oder durch Dienste bestimmt werden
Relevanz=Termfrequenz⋅Inverse Dokumentfrequenz
12. 29.11.10 Status Quo und Zukunft von AANs 12
Dokumentanalyse (2)
SemSim-Funktion zur Berechnung der
Ähnlichkeit zweier Texte A und B
ConSim berechnet die Ähnlichkeit der
Relevanzen eines Schlüsselwortes das A und B
beschreibt
13. 29.11.10 Status Quo und Zukunft von AANs 13
Dokumentanalyse (3)
SemSim gewichtet die Ähnlichkeit der
Relevanzen mit dem Wert der kleineren
Relevanz
Anschließendes aufsummieren für alle
gemeinsamen Schlüsselwörter
Quadrieren des ConSim bewirkt Glättung
SemSim ist bereits implementiert – weitere
Funktionen zur Ähnlichkeitsberechnung sind in
Arbeit
15. 29.11.10 Status Quo und Zukunft von AANs 15
Überblick
Artefakt-Akteur-Netzwerke
Netzwerk- und Dokumentanalyse
Eingesetzte Technologien
Status Quo, Probleme, Lösungen
16. 29.11.10 Status Quo und Zukunft von AANs 16
Ressource Description Framework
(1)
Standard zur Beschreibung von Ressourcen
des Internet
Ausdehnung auf Beschreibung von durch URI
bestimmbare Entitäten (z. B. Katalogdienste,
Feeds, Dateien)
RDF ist durch Maschinen auswertbar und
durchsuchbar (SPARQL)
RDF Datenmodell basiert auf gerichteten
Graphen
17. 29.11.10 Status Quo und Zukunft von AANs 17
Ressource Description Framework
(2)
Daten sind wahre Aussagen über Ressourcen
Aussagen bestehen aus Tripel Subjekt,
Prädikat und Objekt
Subjekt: Die Ressource über die eine Aussage
getroffen wird
Prädikat: Die Eigenschaft des Subjekts
Objekt: Das Argument des Prädikats
Die Menge aller Aussagen bildet einen
gerichteten Graph
18. 29.11.10 Status Quo und Zukunft von AANs 18
OWL
Formale Beschreibungssprachen vom W3C
Hier zur Definition von Ontologien (RDF-
Vokabulare) eingesetzt
Basiert technisch gesehen auf der RDF-Syntax,
kann aber wesentlich mehr
Vererbung
Inverse, Symmetrie, Transitivität, Kardinalitäten
Prädikatenlogik
20. 29.11.10 Status Quo und Zukunft von AANs 20
Jena
Java basiertes Open Source Framework für
Semantische Netze
Speichern und Laden von Graphen in RDF
Notation
Unterstützt OWL-Ontologien und bietet
automatische Inferenzbildung
Schnelles Einfügen und Wiederfinden von RDF
Tripeln
Ermöglicht abrufen der Daten durch SPARQL
21. 29.11.10 Status Quo und Zukunft von AANs 21
OSGi
Open Services Gateway initiative: Hardware
unabhängige dynamische Softwareplattform
Erleichtert die Implementierung von
Komponenten-basierter Software
Ermöglicht das Einbinden neuer Komponenten
zur Laufzeit und ohne Codeänderung
Kommunikation der Komponenten durch OSGi-
Dienste
22. 29.11.10 Status Quo und Zukunft von AANs 22
Überblick
Artefakt-Akteur-Netzwerke
Netzwerk- und Dokumentanalyse
Eingesetzte Technologien
Status Quo, Probleme, Lösungen
25. 29.11.10 Status Quo und Zukunft von AANs 25
Crawler/CrawlerManager (1)
Empfangen Content-Analyse Aufträge
Der CrawlerManager nutzt die Dienste des
Crawlers und bietet selbst Funktionen auf
höherer Ebene
Der Crawler bekommt die URI des zu
analysierenden Artefaktes und setzt die
Verarbeitungskette in Gang
Accessor
MimeTyper
Parser
27. 29.11.10 Status Quo und Zukunft von AANs 27
Crawler/CrawlerManager (2)
Jeder Crawl-Auftrag wird in einen
eigenständigen Thread ausgeführt
Crawler erzeugt CrawlerDataObject
Problem:
Bei Systemausfall geht das CrawlerDataObject und
damit alle während des Jobs gewonnenen Daten
verloren
Lösung:
Sicherung der CrawlerDataObjects in einer
Datenbank
29. 29.11.10 Status Quo und Zukunft von AANs 29
Parser
Sucht in den Ressourcen nach semantischen
Relationen
Schreibt in den Jena DataStore und den
FullTextStore
Problem:
Zu jeder Ressourcen URI kann ein Volltext abgelegt
werden. Abstract oder Kompletter Volltext möglich.
Lösung:
Kennzeichnung durch zusätzlichen Parameter
30. 29.11.10 Status Quo und Zukunft von AANs 30
Jena DataStore
Speichert vom Parser erzeugte RDF-Tripel die
der Ontologie genügen
Probleme:
Inferenzen werden erst nach konkreten Anfragen
durchgeführt
Inferenzen werden nicht persistent gespeichert
Lösung:
Inferenzen durchführen wenn neue Tripel
gespeichert werden und persistent speichern
31. 29.11.10 Status Quo und Zukunft von AANs 31
FullTextLucene
Konkrete Implementierung des FullTextStore
und RelevanceStore in einer Komponente
Bestimmung von Schlüsselwörtern erfordert die
Speicherung von Volltext
Speichert die Relevanzen von Schlüsselwörtern
Informiert die TextAnalyser und die
ReferenceAnalyser Komponente durch OSGi
Events
32. 29.11.10 Status Quo und Zukunft von AANs 32
Analysing-Block (1)
Network-Analyser
Reagieren auf Änderungen im Datastore
Analysieren das Netzwerk (Dichte, Zentralität)
TextAnalyser:
Reagieren auf Updates im Fulltextstore
Bestimmen Schlüsselwörter und Named Entities
und legen diese im DataStore ab
Orchestr8Analyser, OpenCalaisAnalyser,
CosineAnalyser
33. 29.11.10 Status Quo und Zukunft von AANs 33
Analysing-Block (2)
RelevanceAnalyser
Reagiert auf OSGi Events vom FullTextLucene
SemSimAnalyser: berechnet die Semantische
Ähnlichkeit von Artefakten nach der SemSim-
Funktion
Problem:
Ähnlichkeiten werden „on the fly“ berechnet und
nicht persistent gespeichert
Lösung:
SimitarityStore zur persistenten Speicherung
34. 29.11.10 Status Quo und Zukunft von AANs 34
Fertig!
Vielen Dank für die Aufmerksamkeit!
35. 29.11.10 Status Quo und Zukunft von AANs 35
Literatur (1)
Wolfgang Reinhardt, Matthias Moi, Tobias Varlemann:
Artefact-Actor-Networks as tie between social networks and
artefact networks
Matthias Moi: Soziale Netzwerkanalyse in Artefact-Actor-
Networks
Wolfgang Reinhardt, Tobias Varlemann, Matthias Moi,
Adrian Wilke: Modeling, obtaining and storing data from
social media tools with Artefact-Actor-Networks
Tobias Varlemann: Konzeption und Entwicklung einer
Architektur zur semantischen Analyse, Speicherung und
Bereitstellung von Daten aus Blogs und Microblogs in
Artefact-Actor-Networks, Universität Paderborn, 2010
36. 29.11.10 Status Quo und Zukunft von AANs 36
Literatur (2)
Adrian Wilke: Analysis and integration of Web 2.0 data
sources into a system for analysis and storage of Artefact-
Actor-Networks, Universität Paderborn, 2010
Tobias Varlemann: Kleine Einführung ins RDF und Jena
Tobias Varlemann: Kleine Einführung ins OSGi
Gespräche und E-mail Austausch mit:
Adrian Wilke, Christian Meier, Tobias Varlemann, Matthias
Moi