Grundlage

Das OCR-D Struktur Ground-Truth-Korpus umfasst Publikationen aus dem Zeitraum 1500 - 1900.

Der Inhalt des Korpus basiert auf manuell erfassten Zoning-Daten, die im Zuge des DFG Projektes Deutsches Textarchiv erfasst wurden. Diese Daten dienten der Unterstützung der manuellen Transkription im Double Keying-Verfahren. Die Zonen markieren ausschließlich quadratische Regionen auf dem Digitalisat. Eine Bearbeitung (Cropping, Dewarping) der Digitalisate wurde nicht vorgenommen. Die Daten wurden im Rahmen des DFG Projektes Deutsches Textarchiv im Unterschied zum Element-Repertoire des PAGE-Formates in Teilen tiefer erschlossen. Diese Tiefenerschließung ist als Wert des custom-Atributt festgehalten.