Felix Sasaki and Georg Rehm. Digitale Kuratierungstechnologien: Beispiele aus ausgewählten Branchen. #DKT15 - Digitale Kuratierungstechnologien, Berlin, Germany, October 2015. October 06, 2015
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
1. Felix Sasaki und Georg Rehm
Mockups von Jan Nehring
DFKI GmbH – Forschungsbereich Sprachtechnologie, Berlin
Fachtagung „Digitale Kuratierungstechnologien“
Humboldtuniversität, Oktober 2015
Digitale Kuratierungstechnologien
Beispiele aus ausgewählten Branchen
2. Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
etc. Informieren
Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Enthalten, in jeweils unterschiedlichen Verhältnissen, Text, Daten, Metadaten, Bild, Video, Ton,
Visualisierungen, sonstige interaktive Elemente, Multimedia-Bausteine, spezifische Textstrukturen etc.
3. Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
etc. Informieren
Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Enthalten, in jeweils unterschiedlichen Verhältnissen, Text, Daten, Metadaten, Bild, Video, Ton,
Visualisierungen, sonstige interaktive Elemente, Multimedia-Bausteine, spezifische Textstrukturen etc.
Sprach- und Wissenstechnologien:
• Semantische Analyse (AP1)
• Mehrsprachigkeit (AP2)
• Semantische Generierung (AP3)
4. Drei Funktionsbereiche
• Semantische Textanalyse:
– Anreicherung von Informationen mit Metadaten (z.B. zu Eigennamen)
– Automatisches Textzusammenfassen
– Integration von Informationen aus externen Datenquellen inkl.
Provenance-Information, etwa LOD (z.B. DBpedia, Wikidata)
• Semantische Generierung:
– Hypertextualisierung und Aufbereitung von Informationssammlungen
zu Texten und Hypertexten (Semantic Story Telling)
– Nutzung von Markup-Sprachen für thematische, räumliche, temporale
Annotation und Darstellung
• Internationalisierung und Mehrsprachigkeit:
– Anwendung von W3C-Standards (z.B. ITS 2.0), Verknüpfung mit LOD
– Integration und Adaptation von maschineller Übersetzung (MT)
4Fachtagung „Digitale Kuratierungstechnologien“ 2015
5. Semantische Analyse
• Geringe Präzision
• Keine Adaptierbarkeit
• „Nur Text“ Verarbeitung – erschwerte Einbindung in Workflows
5
State of the Art
“The chancellor of Germany will visit several countries. Mrs. Merkel will start in
Brazil.” ✖
✖
✖ Nicht analysiert
Fachtagung „Digitale Kuratierungstechnologien“ 2015
6. Semantische Analyse
6
DKT Innovation
• Hohe Präzision mit tiefer Verarbeitung
• Adaption zu Nutzer spezifischen Domänen
• Dokumentstruktur spezifische Abdeckung zahlreicher Inhaltsformate / -
workflows
“The chancellor of Germany will visit several countries. Mrs. Merkel will start in
Brazil.” ✔
✔
✔ Analysiert
✔
“The
chancellor
…”
Eingabe: Text, HTML, Word, ...
Analyse (Domäne:
Politik,
Wirtschaft, ...
„Meine In-House
Domäne“)
Weitere
Kuratierungs-
prozesse
✔
identisch
Teil von
Fachtagung „Digitale Kuratierungstechnologien“ 2015
7. Mehrsprachigkeit
• Verbreitet: Maschinelle Übersetzung (MT) mit geringer Qualität
(Inbound Translation)
• Wünschenswert: Hoch qualitative MT (HQMT)
7
State of the Art
„Der Kanzler von Deutschland werden mehrere Länder besuchen. Frau Merkel in
Brasilien zu starten.“
“The chancellor of Germany will visit several countries. Mrs. Merkel will start in
Brazil.”
Maschinelle
Übersetzung
✖
✖✖
✖
Fachtagung „Digitale Kuratierungstechnologien“ 2015
8. Mehrsprachigkeit
8
DKT Innovation
• Einfache Schnittstellen für Inbound Translation
• In Richtung HQMT: Adaption von MT durch externe Wissensquellen
• In Richtung HQMT: Verbesserung des MT Workflows durch
standardisierte Metadaten
„Der Kanzler von Deutschland wird mehrere Länder besuchen. Frau Merkel in
Brasilien starten.“
“The chancellor of Germany will visit several countries. Mrs. Merkel will start in
Brazil.”
Maschinelle
Übersetzung
Externe
Wissens-
quellen
Metadaten
✔✖
✖
„wird“ fehlt
Fachtagung „Digitale Kuratierungstechnologien“ 2015
9. Semantische Generierung
• Verbreitet: Template-basierte Ansätze
• Geringe Sprach- und Domänenabdeckung
9
State of the Art
„In @@@@ scheint die Sonne. Es ist zur Zeit @@@@ Grad.“
„In Rio de Janeiro scheint die Sonne. Es ist zur Zeit 28 Grad.“
Generierung
Wetterberichte
Fachtagung „Digitale Kuratierungstechnologien“ 2015
10. Semantische Generierung
10
DKT Innovation
• Enge Verknüpfung mit semantischer Analyse und Mehrsprachigkeit
• Adaption von Stil, Grammatik etc. durch Textstrukturgrammatiken ->
Basis für Storytemplates
“The chancellor of Germany … will start in Brazil.”
http://www.dbpedia.org/resource/Brazil
„Brasilien hat über 200 Millionen Einwohner.
Bekannte Städte sind: Rio de Janeiro, ...“
Externe,
sprachübergreifend
e Wissensquellen
Textstruktur-
grammatiken ->
Story-templates
Semantische
Generierung
Ergebnis
semantische Analyse
Sprach- und Medien
übergreifende
Generierung –
„Den Nutzer
berühren“
Fachtagung „Digitale Kuratierungstechnologien“ 2015
11. Wichtig: Nutzerperspektiven
In vier Branchen ...
1. ART&COM: Kommunikationslösungen für Museen,
Showrooms, Events etc.
2. Condat: Redaktionen im Medienbereich, z.B. von TV/
Radio-Sendern
3. 3pc: Websites und mobile Anwendungen für Kunden aus
Wirtschaft, Wissenschaft und Kultur
4. kreuzwerker: Gestaltung von Transformationsprozessen
im IT-Bereich
11Fachtagung „Digitale Kuratierungstechnologien“ 2015
12. Wichtig: Nutzerperspektiven
... mit verschiedenen Personas – exemplarische, typische
Nutzern und exemplarischen Herausforderungen in der
jeweiligen Branche
1. Projektleiter für Ausstellungsentwurf
– Herausforderung „Kooperative Erstellung von Inhalten“
2. Medienredakteur
– Berücksichtigung mehrsprachiger Inhalte
3. Anwendungsentwickler für digitale Archive
– Anpassung von Navigationsstrukturen in kuratierten
Inhalten
4. Softwareintegrator für Kuratierungs-Workflows
– Flexible Verknüpfung bestehender Softwareschnittstellen
12Fachtagung „Digitale Kuratierungstechnologien“ 2015
13. MOCKUPS FÜR DIE NUTZER
13Fachtagung „Digitale Kuratierungstechnologien“ 2015
14. Beispiele ...
... für einige Personas
1. Projektleiter für Ausstellungsentwurf
– Herausforderung „Kooperative Erstellung von Inhalten“
2. Medienredakteur
– Berücksichtigung mehrsprachiger Inhalte
Die Entwicklung der Sprach- und Wissenstechnologien
durch die Anforderungen der Kuratierungsbranchen leiten
14Fachtagung „Digitale Kuratierungstechnologien“ 2015
15. Projektleiter für Ausstellungsentwurf
• „Ich muss Materialien sammeln ... tausende von Dateien
in unterschiedlichen Formaten, Textschnipseln ... Wie
bewahre ich den Überblick?“
• Digitale Kuratierung: Wahrung der Provenienz
– Jede Kuratierungseinheit hat einen eindeutigen
Identifikator – eine Webadresse
– Der Workflow erlaubt beim Einbinden der Ressourcen die
URIs zu speichern
– Beispiel dkt-demo/provenienz.html
• Hochladen einer HTML-Datei in den Workflow
• Analysieren von relevanten Textstücken, z.B.
Personennamen
• URIs für die Daten als ganzes und für alle Entitäten
15Fachtagung „Digitale Kuratierungstechnologien“ 2015
16. Medienredakteur
• „Ich muss bis morgen einen Artikel über ... schreiben.
Wie finde ich relevante Quellen über Sprachgrenzen
hinweg?“
• Digitale Kuratierung: sprachübergreifender Zugang
– Beispiel dkt-demo/medienredakteur.html
• Redakteur gibt Satz mit verschiedenen Namen ein
• Alle Namen werden automatisch identifiziert
• Sprachübergreifende Schreibweisen werden aus Webquellen
gesucht
• Eine Websuche mit den Schreibweisen wird ausgeführt
• Die ersten Treffer werden automatisch übersetzt
• Der Redakteur kann entscheiden ob er die Artikel manuell
übersetzen lässt
16Fachtagung „Digitale Kuratierungstechnologien“ 2015
17. Nächste Schritte
• Nutzung der Kuratierungstechnologien analysieren
– Durch die Entwickler der Kuratierungstechnologien
vorangetrieben
• Sprach- und Wissenstechnologien den Anforderungen
entsprechend entwickeln
– Keine Black Box Technologien mehr – den Nutzern das
geben, was sie brauchen
17Fachtagung „Digitale Kuratierungstechnologien“ 2015
18. Felix Sasaki und Georg Rehm
Mockups von Jan Nehring
DFKI GmbH – Forschungsbereich Sprachtechnologie, Berlin
Fachtagung „Digitale Kuratierungstechnologien“
Humboldtuniversität, Oktober 2015
Digitale Kuratierungstechnologien
Beispiele aus ausgewählten Branchen