Transcription Guidelines for Ground Truth OCR-D: DFG-funded Initiative for Optical Character Recognition Development
Wie im Level 2 transkribieren
Ist das Zeichen als eigenständiges Zeichen im Unicode-Standard definiert, ist dieses vorrangig
zu verwenden.
Kann das Zeichen nur aus der Kombination von zwei Zeichen im Rahmen des Unicode-Standards
gebildet werden, ist diese Kombination zu verwenden.
Außer den vokalischen Ligaturen werden alle Ligaturen aufgespalten.
Typographische Besonderheiten sind als Formatierungsangaben zu dokumentieren. Darunter sind auch alle nicht vokalischen Ligaturen
zu verstehen.
Kann das Zeichen nicht aus der Kombination von Zeichen gebildet werden und ist eine MUFI-Entsprechung
vorhanden, ist MUFI zu verwenden.
Können die Möglichkeiten 1, 2, 4 nicht gewählt werden, ist in Abstimmung mit dem
OCR-D-Koordinierungsgremium eine OCR-D-Code-Definition in Nachnutzung gemeinsam getroffener
Vereinbarungen internationaler Großprojekte wie IMPACT, EEBO, ECCO zu verwenden.