OCR-D Ground Truth Praxis

Repository-URL: https://ocr-d-repo.scc.kit.edu/api/v1/metastore/bagit

Werkzeuge

Transkribus Transkribus ist eine Werkzeug mit der auf Basis des PAGE-Formates Transkribtionen erstellt werden können. Diese Transkribtionen können für das Training von Texterkennungs-Software genutzt werden.

Aletheia Aletheia ist die Refenenzsoftware des am PRIma-LAB (Pattern Recognition & Image Analysis Research Lab) entwickelten PAGE-Formates. Mit dieser Software werden Transkribtionen erstellt, die für das Training von Texterkennungs-Software genutzt werden können.

Beide Werkzeuge können für die Erstellung von Ground Truth genutzt werden.

Guidelines

OCR-D GroundTruth Guidelines

Präsentation: https://ocr-d.github.io/gt/trans_documentation/index.html Dokumentation: https://github.com/OCR-D/gt-guidelines

Page-XML

Dokumentation zum PAGE XML Format for Page Content im Rahmen von OCR-D https://ocr-d.github.io/gt/trans_documentation/trPage.html GitHub: https://github.com/PRImA-Research-Lab/PAGE-XML

Tools und Helferlein

Tanskribus Software: https://transkribus.eu Kurz-Hilfe: https://transkribus.eu/wiki/images/c/cf/Transkribus_in_10_Schritten.pdf

Aletheia Software: https://www.primaresearch.org/tools/Aletheia/Editions ~Hinweis~ Es liegt nur eine Windows-Version vor.

makeAletheia_mets Erstellung einer Mets-Datei (Page Collections-Datei), um einfach mit Aletheia zu arbeiten. https://github.com/tboenig/makeAletheia_mets

Transkribus_mets2Aletheia_mets Konvertierung einer vorhandenen Transkribus-METS-Datei in eine Aletheia-METS-Datei. https://github.com/tboenig/Transkribus_mets2Aletheia_mets

Workshop

Aufgabe:

  1. Arbeiten in Transkribus: Erstellung von GroundTruth auf Basis von Digitalisaten
    • Erstellung einer Transkribtion und der Zuordnung von Seitenregionen.
  2. Arbeiten in Altheia: Bearbeitung in Aletheia
    • Alternative Aufgabe: Öffnen der Datei im PAGE-Viewer
  3. Arbeiten mit dem GT-OCR-D Repositorium: Download und Bearbeitung von GroundTruth aus dem GT-OCR-D Repositorium.

Aufgabe 1:

Voraussetzung: installierter Transkribus (https://transkribus.eu/Transkribus/) ~Hinweis:~ Dazu ist ein Acount bei Transkribus notwendig.

Aufgabe 2:

Um den GroundTruth aus Transkribus in Aletheia zu bearbeiten, kann die zur Verfügung gestellte METS-Datei genutzt werden. Jedoch muß diese in das Aletheia-Format konvertiert werden.

Allgemeine Informationen zu METS: https://de.wikipedia.org/wiki/Metadata_Encoding_%26_Transmission_Standard METS-Standard: http://www.loc.gov/standards/mets/ Voraussetzung: Der SAXON : The XSLT and XQuery Processor ist auf Ihrem Rechner installiert.

Hinweis: Wo ist meine Eingabetaste (Returntaste oder Entertaste)? https://upload.wikimedia.org/wikipedia/commons/a/a5/Enter.png

Parameter kurze Erklärung
-xsl: Angabe des XSL-Datei.
-s: Angabe der Datei die transformiert werden soll.
-o: Angabe der Ausgabedatei.

Alternative Aufgabe 2:

Eine PAGE-Datei kann auch im PAGE-Viewer angezeigt werden. Dazu ist eine valide PAGE-Datei notwendig. Zur Zeit werden PAGE-Dateien in Transkribus mit einigen Erweiterungen ausgeliefert, die zum PAGE-Schema nicht konform sind. Deshalb müssen diese Erweiterungen vor dem Öffnen mit dem PAGE-Viewer zum Beispiel manuell entfernt werden.

Ausschnitt aus der PAGE-Datei von Transkribus:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<PcGts xmlns="http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15 http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15/pagecontent.xsd">
    <Metadata>
        <Creator>OCR_D</Creator>
        <Created>2016-09-20T13:04:41.875+02:00</Created>
        <LastChange>2018-04-23T12:49:58.191+02:00</LastChange>
        <Comments>
                Measurement unit: pixel
                PrimaryLanguage: German
                Language: GermanStandard
                Producer: ABBYY FineReader Engine 11</Comments>
        <TranskribusMetadata docId="6557" pageId="213761" pageNr="1" tsid="3193617" status="GT" userId="2082" imgUrl="..." xmlUrl="..." imageId="205160"/>
    </Metadata>
    [...]
</PcGts>

Der Eintrag:

<TranskribusMetadata docId="6557" pageId="213761" pageNr="1" tsid="3193617" status="GT" userId="2082" imgUrl="..." xmlUrl="..." imageId="205160"/>

ist zu löschen.

Aufgabe 3:

Das OCR-D-GT-Repositorium speichert, verwaltet und archiviert GroundTruth-Daten. Für das Training und für die Evaluation können aus diesem Repositorium entsprechende Daten verwendet werden. Aber auch GroundTruth-Daten die in verschiedenen Kontexten erstellt wurden können in diesem Repositorium gespeichert und archiviert werden. Möchten Sie Ihren GroundTruth-Korpus zur Verfügung stellen dann nehmen Sie mit OCR-D Kontakt auf. Schreiben Sie eine E-Mail an ocrd@bbaw.de.

Windows-Explorer-Ansicht Datei-Öffnen-Fenster im PAGE-Viewer

http://dhd2018.uni-koeln.de/wp-content/uploads/boa-DHd2018-web-ISBN.pdf#page=221