Level 1

Spezifische drucktechnische Aspekte und typographischen Besonderheiten werden nicht beachtet und nicht im Ground-Truth Korpus dokumentiert. Eine Normalisierung wird in stärkerem Maß vorgenommen. Folgende Zeichen werden normalisiert:
  • langes-s zu rundem-s
  • Umlaute (e über dem Vokal) zu äöüÄÖÜ
  • sz zu ß
  • Virgel zu Kommata
  • Anführungszeichen werden in den heutigem Gebrauch überführt und nicht unterschieden
  • Trennzeichen werden in den heutigem Gebrauch überführt und nicht unterschieden
  • das runde-r in Verbindung mit c wird aufgelöst in etc.
  • Die Wiedergabe von Leerzeichen beschränkt sich darauf, dass diese ausschließlich Wörter von einander trennen.
  • Satzzeichen werden immer an das vorangegangene Wort herangezogen.