EnArgus – ein ontologiebasiertes Forschungsinformationssystem
1. EnArgus – ein ontologiebasiertes
Forschungsinformationssystem
Thomas Koch
OrbiTeam Software GmbH & Co. KG
PyCon.DE 2012, Leipzig
2. Kurzvorstellung: EnArgus-Projekt
• Ziel: Entwicklung und Erprobung eines zentralen
Informationssystems für Energieforschungs-
vorhaben aus dem Bereich der Förderung durch
Bund und Länder
• Unterschiedliche Zielgruppen
– Die interessierte Öffentlichkeit
• Überblick über Forschungsprojekte
– Die Politik: Ministerien & Projektträger
• Was wird/wurde gefördert (inhaltliche Fragen)
• Forschungstrends, Experten, Verteilung Fördermittel etc.
30.10.2012 PyCon 2012 2
3. Ausgangssituation
Diverse Problemstellungen und Anforderungen
• Informationen über Projekte auf diverse Quellen verstreut:
– Datenbanken, Dokumente (z.B. Berichte)
• Projektdatenbanken
– sind eher betriebswirtschaftlich motiviert
– sind zur fachlichen Auswertung wenig geeignet
• Projektdokumente
– sind oftmals sehr fachspezifisch formuliert
• Bedarf nach
– Übergreifenden komfortablen Recherchemöglichkeiten
– Einbeziehung von Wissen über Fachgebiet bei der Recherche
– Auswertungswerkzeugen (auf Suchergebnissen)
30.10.2012 PyCon 2012 3
4. Idee
Verbesserte Suche durch
Wissenserschließung
• Wiki-Artikel Fachexperte
– Zu Fachbegriffen der Energieforschung
– Von Fachexperten gemeinsam verfasst
• Informationsextraktion
– Aufbau der Ontologie
durch Textanalyse
• Ontologie
– Dient der formalen und expliziten
Repräsentation von Wissen
• Suchanfrage
– Wird durch verwandte Begriffe aus
Ontologie angereichert
• Optimierte Suchergebnisse
zufriedene Benutzer
30.10.2012 Anwender
5. Vorgehen
• Zusammenführen von Daten
– Projektdaten aus PROFI (administrative Daten)
– Projektdokumente aus versch. Quellen
– Inhaltliche Erschließung über Suchmaschine
• Inhaltssuche (Volltext) und Metadatensuche
• Unterstützung der Recherche durch Fachontologie
– Fachontologie wird mit Hilfe der Energieexperten erstellt
– Energieexperten formulieren Sachzusammenhänge im Wiki
– Ontologieexperten realisieren Erfassung des Wikis durch
Methoden der Sprachanalyse und Wissensextraktion
– IT-Experten implementieren das Basis-System mit
Suchfunktionen, die auf die Ontologie zurückgreifen
30.10.2012 PyCon 2012 5
6. Fakten: EnArgus®
• Nationales Forschungsvorhaben
– Partner: aus Energieforschung und Informatik
• Fraunhofer FIT, FKIE, UMSICHT und ISI
• Forschungszentrum Jülich
• Ruhr-Universität Bochum
• OrbiTeam Software
– Gefördert durch BMWi
• Bundesministerium für Wirtschaft
und Technologie
• 5. Energieforschungsprogramm
der Bundesregierung
• 2 Jahre Laufzeit
(Juli 2011 bis Juni 2013)
– Mehr Infos:
https://www.enargus.de
30.10.2012 PyCon 2012 6
7. EnArgus: Teilsysteme
Für die Öffentlichkeit Für die interne Nutzung
EnArgus.public EnArgus.master
• Einfache Bedienung • Expertensuche
• Ansprechende Webseiten • Vollzugriff auf Vorhaben
• Eingeschränkter Zugriff • Hinzufügen von Inhalten
• Einfache Suchfunktionen • Statistische
• Faceted Search Auswertungen
• Zugriff auf EnArgus.wiki • Suchen speichern
• Suchen veröffentlichen
30.10.2012 PyCon 2012 7
11. • Faceted
Search
– Einfache
Suchfunktion
– Einschränkung
über Facetten
– Facette:
Filter nach
bestimmten
Kriterien
(auch mehrstufig)
30.10.2012
12. • Detailansicht
– Eingeschränkter
Zugriff auf
Details
30.10.2012
13. EnArgus Wiki
• Mehrfacher Nutzen
– Einfache Bedienung
• Fachexperten beschreiben Anwendungsdomäne im Wiki
• Fachexperten müssen nichts über die Fachontologie wissen
– Wiki ist zugleich hilfreich für Anwender
• Verknüpfung von Fachbegriffen mit Wiki als eine Art Glossar
• Wiki soll später der Öffentlichkeit zur Verfügung stehen
• Technische Basis
– MoinMoin Wiki
– Einfache Integration („SSO“)
30.10.2012 PyCon 2012 13
15. Informationsextraktion
• Aufbau der Ontologie durch Textanalyse
– Wiki-Texte werden (durch Software) ausgewertet
• Dabei erfolgt die Umwandlung von Text in Wissen!
• Ergebnis der Informationsextraktion ist die
(aktualisierte/erweiterte) Ontologie
– Ziel: Unterstützung der Suche
• z.B. Vorschlagen von verwandten Begriffen
• Dadurch mehr relevante Treffer und zielgerichtete Suche
– Technik:
• Text mining
• Semantic Role Labeling (SRL)
– Tools:
• GATE (General Architecture for Text Engineering)
• Protegé (Ontologie-Editor und Java-Bibliothek)
30.10.2012 PyCon 2012 15
17. ENARGUS.MASTER
Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und
Suchbegriff(e) eingeben
• in der einfachen Suche werden
Synonyme automatisch mit in
die Anfrage einbezogen
(optional, EnArgus.public)
• in der erweiterten Suche
werden semantisch verwandte
Begriffe (aus der Ontologie)
angeboten
(nur in EnArgus.master)
30.10.2012
18. ENARGUS.MASTER
Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und
Suchbegriff(e) eingeben
• in der einfachen Suche werden
Synonyme automatisch mit in
die Anfrage einbezogen
(optional, EnArgus.public)
• in der erweiterten Suche
werden semantisch verwandte
Begriffe (aus der Ontologie)
angeboten
(nur in EnArgus.master)
30.10.2012
19. ENARGUS.MASTER
Ontologiebasierte Suche
• Technik:
– JPype zur Anbindung an die Java-Bibliothek(en)
– Eigener Prozess verkürzt Zugriffszeit
• Starten der JVM und Laden der Bibliotheken (JAR)
• Laden der Ontologie (aus OWL-Datei)
Service RPC JPype
Ontologie- Bibliothek für
BSCW Core
(Python) Service Ontologie-Anfragen
(Python) (Java)
:
Web-Request-Prozess Protégé-API
Ontologie-Datei
30.10.2012 Ontologie-Service-Prozess (OWL)
20. ENARGUS.MASTER
Erweiterte Suche
• Benutzerschnittstelle für Experten
– Erlaubt Klammerung
von Suchbegriffen
– Auswahl diverser
Attribute (Metadaten)
• Technik:
– HTML/CSS/Dojo
(JavaScript Framework)
– Suchanfrage wird
in JSON codiert
30.10.2012
21. ENARGUS.MASTER
Erweiterte Suche
• Benutzerschnittstelle für Experten
– Komplexes Suchformular
– Wunsch nach Übersicht
zur formulierten Suche
Repräsentation in Graph
Enthält Suchterme und
Klammerung
Darstellung von UND- /
ODER-Gruppen
• Technik:
– GraphViz, pydot
30.10.2012 PyCon 2012 21
22. ENARGUS.MASTER
Vorhabendetails
• Detailansicht zu einem Projekt
– Metadaten
– Dokumente
– Verwandte
Projekte
30.10.2012 PyCon 2012 22
23. ENARGUS.MASTER
Vorhabendetails
• Detailansicht zu einem Projekt
– Metadaten
– Dokumente
– Verwandte
Projekte
30.10.2012 PyCon 2012 23
24. ENARGUS.MASTER
Auswertungen
• Akkumulation der
Suchergebnisse
– z.B. Fragestellung:
Verteilung der
Förderkosten
über die Jahre
• Technik
– pandas,matplotlib
30.10.2012
25. ENARGUS.MASTER
Auswertungen
• Akkumulation der
Suchergebnisse
– z.B. Fragestellung:
Verteilung der
Förderkosten
über die Jahre
• Technik
– pandas,matplotlib
30.10.2012
26. Systeme im Einsatz
• BSCW-Server
– Verwaltet Benutzer, Dokumente,
Metadaten, Zugriffsrechte etc.
• Wiki-Server
– MoinMoin (angepasstes ‚look&feel‘)
– Verwaltet Wiki-Texte der Fachexperten
• Ontology-Service
– Basiert auf Protegé (Java) und OWL
– Python-Bridge als lokaler Prozess
• Diverse Python Tools
– Issue Tracker (Trac)
– Test (Py.test) …
30.10.2012 PyCon 2012 26
27. Bibliotheken im Einsatz
• Numpy, Pandas, Matplotlib
– Statistische Auswertungen und Visualisierung
(Teil der Pydata Familie)
• GraphViz, pydot
– Darstellung von Graphen
• PyLucene
– Volltextsuche, Facetten
• JPype
– Anbindung an Java-Bibliotheken
(hier: Protegé)
30.10.2012 PyCon 2012 27
28. ? Diskussion/Fragen
Kontakt für weitere Fragen
• koch@orbiteam.de
• @tomy_koch
Mehr Infos zum Projekt
• Am Stand im Foyer!
• www.enargus.de
30.10.2012 PyCon 2012 28