1. XML mit Word erstellen
- was ist daran so kompliziert? -
Mein Arbeitsgebiet seit mehr als 15 Jahren
- Wie konnte das nur passieren? -
Dr. Stefan Hermann
sh@infinity-loop.de
Geschäftsführer infinity-loop
Autor
XML
infinity-loop
• 1997 gegründet
• Spin-Off: TU München, Fakultät für Informatik
• Schwerpunkte
• Datenmodellierung (Fokus: Dokumente)
• (Alt-) Datenkonvertierung
• Autorenlösungen
• Kundenstamm
• Verlage, Technische Redaktionen, Verwaltung, Integratoren, …
• Produkt
• TheWordXMLroundtripUPLpipelineXSLTprocessor.
2. Warum XML mit Word erstellen?
?
-> Frage an die Anwesenden!
XML mit Word erstellen
- Schritt 1: Authoring in Word -
1. Öffnen/Anlegen eines Dokumentes in Word
2. Text eingeben (Tippen / Kopieren)
3. Semantik zuweisen (Basis: Style-Guides / Autorenumgebung)
• Tabellen/Listen erstellen
• Semantische Blöcke erstellen
• Formatvorlagen anwenden
• Manuelle Formatierungen anwenden
4. Gut schütteln (nicht rühren!)
5. Word Absturz durchmachen – Dokument-Wiederherstellung anwenden
6. Ausdrucken
7. Dokument zwischen Computern/Plattformen austauschen
3. XML mit Word erstellen
- Schritt 2: Export nach XML -
Ganz einfach!
1. Dokument in Word öffnen
2. Als DOCX speichern
3. XSLT anwenden
4. Fertig!
Danke für Ihre Aufmerksamkeit!
Sie sind immer noch hier?
Sehr schön!
Folglich
• ist Ihnen klar, wie schwierig nützliches XML aus Word zu bekommen ist
• kennen Sie die Probleme mit Word und XML aus eigener Erfahrung
• Sie haben komplexe Dokumente
• Sie benötigen XML in Ihrer eigenen DTD
• Sie haben viele verschiedene individuelle Autoren
• Sie haben viele verschiedene individuelle Word Installationen
• Sie haben viele verschiedene individuelle Dokumente
• Sie hatten verschiedenste unerwartete Probleme
• suchen Sie nach gleichgesinnten zum Informationsaustausch
4. Die Autoren
- diejenigen, die alle Probleme verursachen -
• arbeiten graphisch orientiert
• benutzen deshalb “gerne” Word
• sollten strukturierte Inhalte erzeugen
• erstellen aber hauptsächlich Bilder davon
• ignorieren (gerne) alles was man ihnen sagt
authors
• sind Spezialisten in ihrem Arbeitsbereich
• aber keine perfekten Word Anwender
• aber keine Dokumentstrukturspezialisten
• wollen ihr Wissen zu Papier bringen
so einfach wie möglich
• müssen mit Word und dessen Eigenheiten leben …
Die Leser
- diejenigen, die uns am Herzen liegen -
• wünschen Inhalte, die
• einfach zugänglich und zu erfassen sind
• schön dargestellt sind
• gut strukturiert sind
• verlinkt sind
• individualisiert sind
• überall auf jedem Gerät verfügbar sind
wir benötigen reichhaltige Strukturen in XML
um all dies zu erzielen
readers
5. Von Word nach XML
- ein langer und indirekter weg -
Struktur Layout
Autor
Struktur
XML
Darstellung Analyse
• Extern
• Unkontrollierte SW-Umgebung
• Altdaten
Konverter
Von Word nach XML
- die beabsichtigte Struktur – der Mensch sieht sie sofort -
Beispiel: Liste
Aber die vom Autor verwendete Formatierung …
6. Beispiel: Liste
Word auto-numbering
typed manually
typed manually, with whitespace
Word restart numbering
Von Word nach XML
- die verwendete Formatierung – kaum zu glauben -
Beispiel: Liste
Word auto-numbering
typed manually
typed manually, with whitespace
Word restart numbering
Von Word nach XML
- die erwartete Struktur – wie sie der Mensch sieht -
7. CSS – Properties
- technische Details zur Formatierung in Word -
• CSSC (class)
• CSSO (override)
• CSS (tatsächlicher Wert)
Weitere böse Tricks von Autoren
- Mißbrauch in Word -
• hochgestellt auf ganzem Absatz um Schriftgröße zu verkleinern
• H1 FV mit zusätzlicher CSSO um Absatz normal aussehen zu lassen
• Mehrere Leerzeichen um Zeilenumbruch zu ändern
• Weiße Buchstaben (auf weißem Hintergrund) für Abstände
• Standard FV auf ganzem Text mit CSSO anstelle CSSC
8. Problematische Punkte in Word
• Tabulatoren / Leerzeichen
• Dezimal-Tabulatoren
• Attribute / Metadaten zu Bild/Audio/Video und anderen Elementen
• Graphiken: Verankerung und Cropping/Scaling bei Extraktion
• Umsetzung Word-GUI für Projekt als (Pseudo-) WYSIWYG: ja/nein
Interessante Funktionen
• Unscharfe Operatoren
• Regexer auf bereits bestehenden Strukturen
• Block Building
• Manipulation benachbarter Elemente
9. Von Word nach XML
- Workflow gesamt -
Autor
XML
Resümee
gutes XML in einem stabilen Prozess aus Word zu
bekommen ist machbar, aber nicht einfach