Am Beispiel des Projektes EnArgus wird eine Methode zur Wissenserschließung und –Modellierung präsentiert, bei der eine Anwendungsdomäne durch Informationsextraktion aus Wiki-Texten (durch Sprachanalyse) erschlossen und in einer Ontologie repräsentiert wird. Die Ontologie dient dabei zur Unterstützung einer intelligenten Volltextsuche.
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispiel des Projektes EnArgus
1. Wissenserschließung
und –Modellierung:
Ontologie vs. Volltextsuche
am Beispiel des Projektes EnArgus
Thomas Koch
OrbiTeam Software
GmbH & Co. KG
KnowledgeCamp 2012, Karlsruhe
2. Kurzvorstellung: EnArgus-Projekt
• Ziel: Entwicklung und Erprobung eines zentralen
Informationssystems für Energieforschungs-
vorhaben aus dem Bereich der Förderung durch
Bund und Länder
• Unterschiedliche Zielgruppen
– Die interessierte Öffentlichkeit
• Überblick über Forschungsprojekte
– Die Geldgeber (Ministerien, Projektträger)
• Was wird/wurde gefördert (inhaltliche Fragen)
• Forschungstrends, Experten, Verteilung Fördermittel etc.
3. Ausgangssituation
Diverse Problemstellungen und Anforderungen
• Projektdaten sind auf eine Vielzahl nicht
kompatibler Datenbanken verstreut
• Datenbanken sind eher betriebswirtschaftlich
motiviert und zur fachlichen Auswertung wenig
geeignet
• Bedarf nach Auswertungswerkzeugen und
erweiterten Recherchemöglichkeiten
• Vorhabenbeschreibungen sind oftmals sehr
fachspezifisch – Wissen über Fachgebiet für
Recherche erforderlich
4. Idee
Verbesserte Suche durch
Wissenserschließung
• Wiki-texte Fachexperte
– Werden von Fachexperten
gemeinsam verfasst
• Informationsextraktion
– Aufbau der Ontologie
durch Textanalyse
• Ontologie
– Dient der formalen und expliziten
Repräsentation von Wissen
• Suchanfrage
– Wird durch verwandte Begriffe aus
Ontologie angereichert
• Optimierte Suchergebnisse
zufriedene Benutzer
Anwender
5. Vorgehen
• Zusammenführen von Daten aus versch. Quellen
– Projektdaten aus PROFI (administrative Daten)
– Projektdokumente mit Inhalt (z.B. Berichte)
– Inhaltliche Erschließung über Suchmaschine
• Inhaltssuche (Volltext) und Metadatensuche
• Unterstützung der Recherche durch Fachontologie
– Fachontologie wird mit Hilfe der Energieexperten erstellt
– Energieexperten formulieren Sachzusammenhänge im Wiki
– Ontologieexperten realisieren Erfassung des Wikis durch
Methoden der Sprachanalyse und Wissensextraktion
– IT-Experten implementieren das Basis-System mit
Suchfunktionen, die auf die Ontologie zurückgreifen
7. Fakten: EnArgus®
• Nationales Forschungsvorhaben
– Partner: aus Energieforschung und Informatik
• Fraunhofer FIT, FKIE, UMSICHT und ISI
• Forschungszentrum Jülich
• Ruhr-Universität Bochum
• OrbiTeam Software
– Gefördert durch BMWi
• 5. Energieforschungsprogramm
der Bundesregierung
• 2 Jahre Laufzeit
(Juli 2011 bis Juni 2013)
– Mehr Infos:
https://www.enargus.de
8. Aufwand/Nutzen
• Aufwand: Aufbau der Ontologie
– Erfordert Expertenwissen
• Ontologie-Experten und Experten der Fachdomäne
– (Teil-)Automatisierung durch Sprachanalyse
• Ziel: Fachexperten dokumentieren im Wiki und System
extrahiert automatisch die Fachontologie daraus
• Nutzen
– Bessere Unterstützung bei der Suche
• z.B. Vorschlagen von verwandten Begriffen
• Dadurch mehr relevante Treffer und zielgerichtete Suche
– Wiki ist zugleich hilfreich für Anwender
• Verknüpfung von Fachbegriffen mit Wiki als eine Art Glossar
9. EnArgus: Teilsysteme
EnArgus.master EnArgus.public
• Für die interne Nutzung • Für die Öffentlichkeit
• Vollzugriff auf die Vorhaben-
Datenbank • Einfache Bedienung
• Hinzufügen von Inhalten/ • Ansprechende Webseiten
Dokumenten zu Vorhaben • Eingeschränkter Zugriff auf
über Kooperationsplattform
Daten von Vorhaben
• Zugang zu Recherche-
Funktionen • Einfache Suchfunktion
• Expertensuche, gespeicherte • Lesender Zugriff auf
Suchen etc. EnArgus.wiki
14. Details zum Wiki
• Vorgehensweise
– Vorlage im Wiki für die Energie-Experten zur
Beschreibung von Objekten
– Aus Beschreibungen wurde von Ontologie-Experten zunächst der
obere Teil der Ontologie aufgebaut ("upper ontology")
• Bearbeitete Fachthemen:
– Elektrochemische Energiespeicher
– CCS (Carbon Dioxide Capture and Storage)
– Windenergie
– Elektrische Energiespeicher
• Einschränkungen / Hinweise
– Formulierungen im Wiki sollten in einfacher Sprache erfolgen, damit
die Sprachanalyse verwertbare Ergebnisse liefert.
• Technische Basis: MoinMoin Wiki
16. Informationsextraktion
• Aufbau der Ontologie durch Textanalyse
– Wiki-Texte werden (durch Software) ausgewertet
– In diesem Prozess erfolgt die Umwandlung von
Text in Wissen!
– Ergebnis der Informationsextraktion ist die
(aktualisierte/erweiterte) Ontologie
– Technik:
• Text mining
• Semantic Role Labeling (SRL)
– Tools:
• GATE (General Architecture for Text Engineering)
• Protegé/OWL
17. Details zur Ontologie
• Grundlage jeder Ontologie ist eine Taxonomie
– relevante Begriffe der Domäne werden in einem
Baum repräsentiert
– Begriffe sind nach Ober- und Unterklassen
angeordnet
• Ontologie dient der Wissensrepräsentation
– Begriffe enthalten Attribute
(z.B. Eigenschaften oder andere Schreibweisen)
– Zusätzliche Relationen zwischen den Begriffen
bilden weitere semantische Beziehungen ab
18. Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und
Suchbegriff(e) eingeben
• in der einfachen Suche werden
Synonyme automatisch mit in
die Anfrage einbezogen
(optional)
• in der erweiterten Suche
werden semantisch verwandte
Begriffe (aus der Ontologie)
angeboten
19. Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und
Suchbegriff(e) eingeben
• in der einfachen Suche werden
Synonyme automatisch mit in
die Anfrage einbezogen
(optional)
• in der erweiterten Suche
werden semantisch verwandte
Begriffe (aus der Ontologie)
angeboten
20. Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und
Suchbegriff(e) eingeben
• in der einfachen Suche werden
Synonyme automatisch mit in
die Anfrage einbezogen
(optional)
• in der erweiterten Suche
werden semantisch verwandte
Begriffe (aus der Ontologie)
angeboten
21. Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und
Suchbegriff(e) eingeben
• in der einfachen Suche werden
Synonyme automatisch mit in
die Anfrage einbezogen
(optional)
• in der erweiterten Suche
werden semantisch verwandte
Begriffe (aus der Ontologie)
angeboten
24. Ausblick
• Weitere Aspekte im Projekt
– Unterstützung der Datenanalyse
• Statistische Auswertungen von Abfragen
• Graphische Visualisierung von Zusammenhängen
Recherche-Cockpit (derzeit in der Entwicklung)
• Weitere Ideen für die Zukunft
– Unterstützung von Mehrsprachigkeit
– Ausbau der Datenbasis (Erfassung weiterer Themenfelder aus
der Energieforschung)
– ergonomischere Bedienung für die Fachexperten
(z.B. durch grafischen Ontologieeditor)
– Einbeziehung weiterer externer Datenquellen
– Automatisierte Verschlagwortung von Vorhaben
(durch Tagging-Verfahren)
25. Diskussion/Fragen
• Fragen an die KM-Community
– Erfahrungen mit Wissensmodellierung
– weitere Ansätze zur inhaltlichen Erschließung
einer Anwendungsdomäne
(und Erfahrungen damit)?
– Erfahrungen mit ontoligiebasierter Suche
– Unterschied ‚Fachwissen‘ vs. ‚Prozesswissen‘ ?!
• Glossar vs. Rezeptbuch