📱 Übersicht der Ground-Truth-Level

Die Erstellung von Ground-Truth (GT) beinhaltet mehrere Facetten. So ist der GT u. a. einem bestimmten Zweck oder Gebrauch unterworfen. Der Ursprung des Wortes Ground Truth ist das deutsche Wort Grundwahrheit. In diesem Sinn bedeutet das im Allgemeinen, dass alles auf der gedruckten Seite in gleicher Art und Weise wieder gegeben wird. Jedoch einzelne Elemente und Regionen können vereinfacht oder komplex und detailreich wiedergegeben werden. In welchem Umfang dies erfolgt, richtet sich u. a. nach dem Zweck, dem Gebrauch, dem Umfang, der Finanzierbarkeit, der technischen VerfĂŒgbarkeit und 
 Das bedeutet, das in vielen FĂ€llen eine Interpretation von einzelnen typographischen und graphematischen PhĂ€nomenen vorgenommen wird. Damit die getroffenen Interpretationen nachvollziehbar werden, kann der GT nach entsprechenden Level der Wiedergabe der Vorlage transkribiert werden oder bei vorhandenem GT eingeteilt oder evaluiert werden. Eine Beschreibung oder ErlĂ€uterung der Level finden sich in diesen Richtlinien an verschiedenen Stellen. Die folgende Übersicht listet diese Level-Beschreibungen auf.

Anmerkung: siehe: Zu Grundwahrheit="ground truth, n.". im Oxford English Dictionary (OED) Online. September 2021. Oxford University Press. Link (accessed October 28, 2021) .

Allgemeine ErklÀrung zu den Ground-Truth-Level

Transkription im jeweiligen Level?

Struktur-Ground-Truth im jeweiligen Level?

ErklÀrungen zu bestimmten FÀllen wie Ligaturen, Satzzeichen, Unterschiede zwischen I/J


Besonders ist dieser Teil der Dokumentation zu beachten:

Übersichten und Beispiele (betrifft die Transkription von Zeichen)

Level Empfehlung

  • OCR-D empfiehlt fĂŒr die Ground-Truth-Erstellung/Transkription Level 2.

Was sind die Level nicht?

  • Die Einteilung der Level dient neben der Transkription auch der EinschĂ€tzung von Ground-Truth.
  • Die Level sind kein QualitĂ€tssiegel.
  • Bei Nutzung von Level 2 und 3 ist eine textkritische automatische Erfassung/Transkription besser möglich. Voraussetzung das jeweilige Modell ist mit diesem Ground-Truth trainiert worden.
  • Es gibt nur eine eingeschrĂ€nkte KompatibilitĂ€t zwischen den Texten im Level 1, 2 und 3. In den meisten FĂ€llen ist nur in absteigender Richtung (3->2->1) eine KompatibilitĂ€t gegeben.
  • Die Level können nur eingeschrĂ€nkt dazu genutzt werden, zwischen einzelnen Leveln automatisch zu konvertieren.

ProblemfÀlle:

Im folgenden werden einige ProblemfÀlle aufgelistet. Eine VollstÀndigkeit kann durch die HeterogenitÀt der PhÀnomene nicht erreicht werden.

Problemfall langes S

siehe: https://de.wikipedia.org/wiki/Langes_s

Zitat aus Wikipedia:

  • WachĆżtube (Wach·stu·be [Zimmer eines Wachmanns]) und Wachstube (Wachs·tu·be [Tube (siehe https://www.dwds.de/wb/Tube#d-1-1) gefĂŒllt mit Wachs])
  • KreiĆżchen (Krei·schen, fĂŒr Schreien) und Kreischen (Kreis·chen, ein kleiner Kreis)
  • VerĆżendung (Ver·sen·dung [etwas wird an einen anderen Ort gesendet] ) und Versendung (Vers·en·dung [das Ende eines Verses])
  • Röschenhof (Rös·chen·hof, ein Hof mit kleinen Rosen) und Röƿchenhof (Rö·schen·hof, vom Eigennamen Röschen)
  • LachĆżturm (Lach·sturm [heftiges Lachen]) und Lachsturm (Lachs·turm [ein Turm der aus dem Fisch Lachs besteht])

Problemfall Makron ĂŒber dem Zeichen

Transkription:

vnderlaƿƿen/ vñ fuÍ€rnemlich = Level 2

allgemeine Regel: Level 3: ñ, Level 2 ñ, Level 1 nn (Beachten Sie immer den Kontext!!)

Der normalisierte Absatz lautet:

underlassen/ und fĂŒrnemlich = Level 1

unterlassen/ und vornemlich = mögliches Level 1 (Eine sehr starke Normalisierung wurde vorgenommen.)

Problemfall Normalisierung von Transkriptionen/Text

  • ihren Haaren seine FĂŒĂŸe, = mögliches Level 1
  • yhren harẽ Ćżeyne fuƿƿe/ = Level 2

  • doch soll der Vischer solch(es) Haar = mögliches Level 1
  • doch soll der Vischer sollich haar = Level 1
  • doch Ćżoll der ViĆżcher Ćżollich haar = Level 2

Quelle: [WĂŒrttemberg, FĂŒrstentum]: Des FĂŒrstenthumbs Wirtemberg newe Landtsordnung/ gebessert vnd gemehret/ sampt darzu gedruckten der armen Casten/ auch Holtz vnnd Vorst ordnungen. [TĂŒbingen], 1552. In: Deutsches Textarchiv https://www.deutschestextarchiv.de/wuerttemberg_landtsordnung_1552, abgerufen am 05.08.2021.

Zusatz:

Bei der Nutzung von Editionen ist ebenfalls die Normalisierung zu beachten. Dies zeigt dieses Beispiel deutlich.

Quelle: Sammlung der wĂŒrttembergischen Regierungs-Gesetze / 3: Enthaltend den dritten Theil der Samml. der Regierungs-Gesetze : 
 Regierungs-Gesetze vom Jahre 1727 bis zum Jahre 1805 ( Th. 1, 1489 - 1634, Band 12) [http://opacplus.bsb-muenchen.de/title/BV006590720/ft/bsb10552294?page=702] abgerufen am 05.08.2021.