Kurzdarstellung & Projektziele

"Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR)"

Kurzname: OCR-D

Projektpartner
Herzog August Bibliothek Wolfenbüttel, Berlin-Brandenburgische Akademie der Wissenschaften, Staatsbibliothek zu Berlin Preußischer Kulturbesitz, Karlsruher Institut für Technologie
(Projektverantwortliche und Ansprechpartner siehe Kontakt)

Projektlaufzeit
2015 - 2018

Gefördert durch
Deutsche Forschungsgemeinschaft
Wissenschaftliche Literatur- und Informationssysteme (LIS)

Projektstatus
Die erste Phase ist weitestgehend abgeschlossen. Untersucht wurden Bedarfe für die Weiterentwicklung von OCR für historische Dokumente, die als Vorbereitung für die Ausschreibung der Modulprojekte dienen. Die Ausschreibung wurde im März 2017 veröffentlicht woraufhin im Dezember 2017 8 Modulprojekte bewilligt wurden. Die Vorstellung der Projekte erfolgt in Kürze. (Stand 04.03.2018)

Ziele

Ein wesentliches Hauptziel von OCR-D ist die konzeptionelle Vorbereitung der Transformation der VD-Drucke (16.-19. Jh.) in maschinenlesbare Form.

Um dies zu erreichen werden angestrebt:

  • die Erstellung von Referenzkorpora
  • die Erarbeitung von Standards hinsichtlich Metadaten
  • die Weiterentwicklung der Optical Layout Recognition (OLR)
  • die Analyse vorhandener Tools, auch zur Nachkorrektur (z.B. mittels Crowdsourcing)
  • die Erstellung eines Workflows
  • die Erstellung von Verfahren der Qualitätssicherung

Am Ende des Gesamtvorhabens soll ein Softwarepaket zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen Kulturerbes des 16. bis 19. Jh. erarbeitet sein sowie ein begleitendes Konzept das Antworten auf technische, informationswissenschaftliche und organisatorische Fragen liefert.