Schriftarten

Die Schriftinformationen (Typ) ist in allen drei Element-Bereichen (<Word>, <TextLine> und <TextRegion>) mit dem PAGE XML Element <TextStyle> zu dokumentieren.

<TextRegion type="heading" id="r_7_1"">
            <Coords points="542,306 569,306 569,342 542,342"/>
            <TextLine id="tl_4" primaryLanguage="German">
                <Coords points="543,307 568,307 568,341 543,341"/>
                <Baseline points="543,350 568,350"/>
                <Word id="w_w1aab1c13b2b1b1ab1" language="German">
                    <Coords points="543,307 568,307 568,341 543,341"/>
                    <TextEquiv>
                        <Unicode>I.</Unicode>
                    </TextEquiv>
                    <TextStyle fontFamily="fraktur" fontSize="53.0" bold="true"/>
                </Word>
                <TextEquiv>
                    <Unicode>I.</Unicode>
                </TextEquiv>
                <TextStyle fontFamily="fraktur" fontSize="53.0" bold="true"/>
            </TextLine>
 </TextRegion>
Siehe: Complex Type pc:TextStyleType

Schriftarten-Cluster

Die eindeutige Identifikation einer bestimmten Schriftart ist bei Vorlagen aus dem 16.- 19. Jahrhundert nicht immer gegeben. Jedoch kann die Schriftart zu einer bestimmten Schriftfamilie aus einem Cluster von verwandten Schriftgruppen zu geordnet werden.

Abbildung 1. Schriftarten Beispiele. Quelle: Weichselbaumer, Nikolaus; Seuret, Matthias; Limbach, Saskia et. al.: New Approaches to OCR for Early Printed Books. DigItalia 2-2020. DOI: 10.36181/digitalia-00015.
Wir empfehlen folgende Schriftfamilien für die Dokumentation der @fontFamily zu nutzen:
  • antiqua
  • textura
  • gotico-antiqua
  • rotunda
  • italic
  • bastarda
  • greek
  • schwabacher
  • hebrew
  • fraktur
<Word>
   <TextStyle fontFamily="fraktur"/>
</Word>
Anmerkung:

Diese Angabe schränkt die Benennung von Schriftfamilien nicht ein.

Schriftarten und Erkennungswahrscheinlichkeit (Konfidenz)

Mit der Angabe der Erkennungswahrscheinlichkeit (Konfidenz) im Anschluß an die Nennung der Schriftart oder der Schriftfamilie können mehrere Zuordnungen zu Schriftarten und -familien dokumentiert werden sowie eine entsprechende Wahrscheinlichkeit ausgedrückt werden, zu welcher die vorliegende Schriftart und -familie tendiert.

Die Verkettung von Schriftart und -familie und Konfidenz erfolgt mit einem Doppelpunkt (:) gefolgt von einer Gleitkommazahl zwischen 0 (Informationen sind eher unwahrscheinlich) und 1 (Informationen sind korrekt oder wahrscheinlich).

Wenn eine Schriftart und -familie nicht mit einer Konfidenz versehen ist, ist vom Wert 1 auszugehen.

Anmerkung:

Die Nennung von mehreren Schriftarten und -familien innerhalb des PAGE XML-Elementes <Word> bedeutet nicht, dass der Text vorrangig mit mehreren Schriftarten oder -familien gesetzt wurde. Sondern, dass der Text zu mehreren Schriftarten oder -familien zugeordnet werden kann. Die Konfidenz kann die präferierte Zuordnung dokumentieren.

Die Nennung von mehreren Schriftarten und -familien innerhalb des PAGE XML-Elementes <TextLine> sowie <TextRegion> bedeutet, dass der Text in unterschiedlichen Schriftarten oder -familien gesetzt wurde.

        <TextRegion type="paragraph" id="TextRegion_1476719787056_252">
            <Coords points="980,2090 1529,2090 1741,2098 1741,2149 1529,2156 980,2156"/>
            <TextLine id="tl_83" primaryLanguage="German">
                <Coords points="981,2091 1528,2091 1528,2155 981,2155"/>
                <Baseline points="981,2154 1528,2154"/>
                <Word id="w_w1aab1c99b2b1b1ab1" language="German">
                    <Coords points="981,2096 1109,2096 1109,2151 981,2151"/>
                    <TextEquiv>
                        <Unicode>Troſt</Unicode>
                    </TextEquiv>
                    <TextStyle fontFamily="rotunda:0.8,  bastarda:0.8 " fontSize="53.0"/>
                </Word>
                <Word id="w_w1aab1c99b2b1b1ac13" language="German">
                    <Coords points="1121,2097 1189,2097 1189,2139 1121,2139"/>
                    <TextEquiv>
                        <Unicode>der</Unicode>
                    </TextEquiv>
                    <TextStyle fontFamily="rotunda:0.8,  bastarda:0.8 " fontSize="53.0"/>
                </Word>
                <Word id="w_w1aab1c99b2b1b1ac21" language="German">
                    <Coords points="1209,2093 1540,2093 1540,2151 1209,2151"/>
                    <TextEquiv>
                        <Unicode>Seefahrenden.</Unicode>
                    </TextEquiv>
                    <TextStyle fontFamily="rotunda:0.8,  bastarda:0.8 " fontSize="53.0"/>
                </Word>
                <TextEquiv>
                    <Unicode>Troſt der Seefahrenden.</Unicode>
                </TextEquiv>
                <TextStyle fontFamily="rotunda:0.8,  bastarda:0.8 " fontSize="53.0"/>
            </TextLine>
            <TextLine id="line_1476720742138_2">
                <Coords points="1675,2107 1742,2107 1742,2148 1675,2148"/>
                <Baseline points="1676,2149 1738,2146"/>
                <Word id="word_1476721009045_26">
                    <Coords points="1673,2103 1740,2103 1740,2151 1673,2151"/>
                    <TextEquiv>
                        <Unicode>538</Unicode>
                    </TextEquiv>
                <TextStyle fontFamily="antiqua:0.8" fontSize="53.0"/>
                </Word>
                <TextEquiv>
                    <Unicode>538</Unicode>
                </TextEquiv>
              <TextStyle fontFamily="antiqua:0.8" fontSize="53.0"/>
            </TextLine>
            <TextEquiv>
                <Unicode>
                  Troſt der Seefahrenden. 538
                </Unicode>
            </TextEquiv>
         <TextStyle fontFamily="rotunda:0.8,  bastarda:0.8, antiqua:0.8" fontSize="53.0"/>
        </TextRegion>