Kurzdarstellung & Projektziele

"Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR)"

Kurzname: OCR-D

Projektpartner
Herzog August Bibliothek Wolfenbüttel, Berlin-Brandenburgische Akademie der Wissenschaften, Staatsbibliothek zu Berlin Preußischer Kulturbesitz, Karlsruher Institut für Technologie
(Projektverantwortliche und Ansprechpartner siehe Kontakt)

Projektlaufzeit
2015 - 2020

Gefördert durch
Deutsche Forschungsgemeinschaft
Wissenschaftliche Literatur- und Informationssysteme (LIS)

Projektstatus
Die „Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition“ (OCR-D) begann im dritten Quartal 2015 mit der ersten Projektphase. In sechs Arbeitspaketen wurden Bedarfe für die Weiterentwicklung der automatischen Texterkennung eingeholt und analysiert. Die Arbeiten mündeten schließlich in der Ausschreibung „Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke“ der DFG im März 2017. Die Bewilligung von acht (Modul-)Projekten seitens der DFG Ende Dezember 2017 markiert den Abschluss der ersten und den Beginn der zweiten Projektphase, in der die Modulprojekte koordiniert und unterstützt sowie deren Projektergebnisse getestet und integriert werden. Um den Aufgaben des Koordinierungsgremiums über die gesamte Laufzeit aller Modulprojekte gerecht werden zu können, bewilligte die DFG eine Verlängerung des Projektes um weitere 18 ab Oktober 2018.

Ziele

Ein wesentliches Hauptziel von OCR-D ist die konzeptionelle Vorbereitung der Transformation der VD-Drucke (16.-19. Jh.) in maschinenlesbare Form und die Bereitstellung der dafür benötigten Werkzeuge.

Um dies zu erreichen werden im Koordinierunsgprojekt und in den Modulprjekte u.a. folgende Ziele angestrebt:

  • die Erstellung von Referenzkorpora zum trainieren und testen
  • die Erarbeitung von Standards hinsichtlich Metadaten, Dokumentation und zur Erstellung von Ground-Truth
  • die Weiterentwicklung einzelner Verarbeitungsschritte, wobei der Fokus insbesondere auf der Optical Layout Recognition (OLR) liegt
  • die Analyse vorhandener Tools und deren Weiterentwicklung
  • die Erstellung eines OCR-D Frameworks
  • die Erstellung von Verfahren der Qualitätssicherung (Modulprojektantrag 2018 eingereicht)

Am Ende des Gesamtvorhabens soll ein Softwarepaket zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen Kulturerbes des 16. bis 19. Jh. entstehen sowie ein begleitendes Konzept das Antworten auf technische, informationswissenschaftliche und organisatorische Fragen zur möglichen Massenprozessierung dieser Daten liefert.