Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Was tun mit den Ergebnissen der OCR?

Die Sicht der Nutzer von Volltexten. Vortrag auf dem IMPACT Workshop in München am 4.3.2010

  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Was tun mit den Ergebnissen der OCR?

  1. 1. Was tun mit den Ergebnissen der OCR? Die Sicht der Endnutzer CB4 IMPACT Workshop, 4.3.2010 Ralf Stockmann SUB Göttingen / Abteilung Forschung und Entwicklung
  2. 2. OCR in Göttingen <ul><li>Bestand: 8 Mio. Seiten </li></ul><ul><li>Ca. 20 % Fraktur (derzeit keine OCR vorgesehen) </li></ul><ul><li>Jährlicher Zuwachs: 2 Mio. Seiten </li></ul><ul><li>Renderfarm beim GBV (16 Kerne) </li></ul><ul><li>ABBY recognition server </li></ul><ul><li>160 Seiten pro Minute </li></ul><ul><li>In Goobi Workflowsystem integriert </li></ul><ul><li>Als Dienstleistung auf dem Markt angeboten </li></ul>
  3. 3. Endnutzer – wer ist das? <ul><li>Wissenschaftler </li></ul><ul><li>Schüler/Studierende </li></ul><ul><li>Laien </li></ul><ul><li>Bibliothekare (Aufbau von digitalen Inhaltsverzeichnissen) </li></ul><ul><li>Google (und andere Dienste) </li></ul>
  4. 4. Wie sichtbar sind die Volltexte? <ul><li>Versteckt in Suchindex </li></ul><ul><li>Versteckt, aber Image-Highlighting der Fundstelle </li></ul><ul><li>Volltext als Layer hinter dem Image (etwa in PDF gebunden) </li></ul><ul><li>Volltext sichtbar über / neben dem Image </li></ul><ul><li>Nur Volltext sichtbar </li></ul><ul><li>Volltext als Download </li></ul><ul><li>Volltext für Harvester verfügbar (TEI Datei in OAI) </li></ul>
  5. 5. In welchen Formaten? <ul><li>Fragmentiert in einem Suchindex (Text nicht rekonstruierbar) </li></ul><ul><li>Durch Wortkoordinaten platziert, aber kein Dokumentenzusammenhang (bin ich Teil eines Satzes?) </li></ul><ul><li>Text einer Seite (eventuell mit Absätzen / Zeilenumbruch / Spalten) </li></ul><ul><li>Dokumenttext über mehrere Seiten </li></ul><ul><ul><li>PDF </li></ul></ul><ul><ul><li>TEI (Text Encoding Initiative) </li></ul></ul><ul><ul><li>Semantische Auszeichnung </li></ul></ul><ul><li>Informationen, die der Anbieter wegwirft / wegsperrt, kann der Nutzer nicht wieder herstellen </li></ul>
  6. 6. Vier Gruppen der Nutzung <ul><li>Suche / Retrieval </li></ul><ul><ul><li>Bekannt und gezeigt </li></ul></ul><ul><li>Als Werkzeug zur Generierung händischer Metadaten </li></ul><ul><li>Semantische / qualitative Analysen </li></ul><ul><ul><li>Themenkarrieren </li></ul></ul><ul><ul><li>Netzwerke (Personen) </li></ul></ul><ul><li>Textarbeit </li></ul><ul><ul><li>Virtuelle Forschungsumgebungen </li></ul></ul>
  7. 7. OCR als Produktionswerkzeug
  8. 8. Semantische Graphen über <ul><li>Themen </li></ul><ul><li>Personen </li></ul><ul><li>Personenbeziehungen </li></ul>
  9. 9. Anwendungen <ul><li>Exploratives Browsing </li></ul><ul><li>Relevanz von Metadaten für die Erschließungsqualität, oder: kann man durch den Einsatz von Volltexten auf Meta- Strukturdatengenerierung verzichten? </li></ul><ul><li>Experiment: Vergleich der semantischen Graphen zu </li></ul><ul><ul><li>Nur bibliographische Metadaten </li></ul></ul><ul><ul><li>Metadaten + Strukturdaten (Inhaltsverzeichnisse) </li></ul></ul><ul><ul><li>Nur Volltexte </li></ul></ul><ul><ul><li>Bibliographische Metadaten + Volltexte </li></ul></ul><ul><ul><li>Bibliographische Metadaten + Strukturdaten + Volltexte </li></ul></ul><ul><ul><li>Ergebnisse auf dem Bibliothekartag in Leipzig </li></ul></ul>
  10. 10. Semantische / qualitative Analysen Goethe
  11. 11. Goethe Schiller
  12. 12. Virtuelle Forschungsumgebungen TextGridLab
  13. 13. Empfehlungen <ul><li>Alle Qualität der OCR nutzt nichts, wenn es nicht bei unseren Kunden ankommt </li></ul><ul><li>auch fehlerhafte OCR Ergebnisse sind nützlich </li></ul><ul><li>Explorative, semantische Verfahren werden viele Textwissenschaften nachhaltig beeinflussen </li></ul><ul><li>Aber: wir können nur einen Bruchteil der denkbaren und sinnvollen Nutzungen vorhersehen / anbieten </li></ul><ul><li>Darum: Volltexte in möglichst vielen Formaten und an möglichst vielen Schnittstellen zur Nachnutzung anbieten (PDF, txt, TEI, OAI, ...) </li></ul>
  14. 14. Ausblick <ul><li>Ulrich Johannes Schneider in der SZ am 1.3. </li></ul><ul><ul><li>Sollten wir nicht anerkennen, dass die neue Technik mindestens ebenso revolutionär wirkt wie der Buchdruck selbst vor über 500 Jahren? </li></ul></ul><ul><li>Ja – aber nicht durch Image-Digitalisierung, sondern die Volltexterfassung. </li></ul>

×