Praxis: OCR von willkürlichen Bildern
Der Fokus von OCR-D ist auf Massendigitalisierung historischer Bestände. Deswegen wird konsequent immer METS verwendet.
Um mit willkürlichen Bildern innerhalb OCR-D zu arbeiten, müssen wir daher METS erzeugen.
Als Beispiel verwenden wir die erste Seite der englischen Ausgabe des Kommunistischen Manifests (Quelle: https://upload.wikimedia.org/wikipedia/commons/thumb/1/18/Manifesto_of_the_Communist_Party.djvu/page15-2745px-Manifesto_of_the_Communist_Party.djvu.jpg).
Neues METS erzeugen
Der workspace Unterbefehl erlaubt es, neues METS zu initiieren (init):
$ ocrd workspace init communist_manifesto
22:58:38.321 INFO ocrd.resolver - Writing /home/kba/build/github.com/OCR-D/monorepo/slides/2019-03-25-dhd/communist_manifesto/mets.xml
22:58:38.322 INFO ocrd.workspace - Saving mets '/home/kba/build/github.com/OCR-D/monorepo/slides/2019-03-25-dhd/communist_manifesto/mets.xml'
/home/kba/build/github.com/OCR-D/monorepo/slides/2019-03-25-dhd/communist_manifesto
$ find communist_manifesto
communist_manifesto
communist_manifesto/mets.xml
Verzeichnis für Bild anlegen
Per Konvention heisst die Dateigruppe mit dem unkomprimierten Bild innerhalb von OCR-D immer OCR-D-IMG:
$ cd communist_manifesto
$ mkdir OCR-D-IMG
Bild herunterladen
$ curl 'https://raw.githubusercontent.com/OCR-D/assets/master/data/communist_manifesto/data/OCR-D-IMG/OCR-D-IMG_0015' > OCR-D-IMG/OCR-D-IMG_0015.png
Bild zum METS hinzufügen
Dateien können mit dem add Unterbefehl von ocrd workspace hinzugefügt werden.
Dafür sind eine Reihe von Parametern notwendig, die Sie der Hilfe entnehmen können:
$ ocrd workspace add --help
Usage: ocrd workspace add [OPTIONS] LOCAL_FILENAME
Add a file LOCAL_FILENAME to METS in a workspace.
Options:
-G, --file-grp TEXT fileGrp USE [required]
-i, --file-id TEXT ID for the file [required]
-m, --mimetype TEXT Media type of the file [required]
-g, --page-id TEXT ID of the physical page
--force If file with ID already exists, replace it
--help Show this message and exit.
Wir fügen also die Datei hinzu:
$ ocrd workspace add -g P0015 -G OCR-D-IMG -i OCR-D-IMG_0015 -m image/png OCR-D-IMG/OCR-D-IMG_0015.png
Und überprüfen ob sie wirklich hinzugefügt wurde:
$ ocrd workspace find
OCR-D-IMG/OCR-D-IMG_0015
Eindeutigen Identifier hinzufügen
Nun setzen wir noch einen eindeutigen Identifier:
$ ocrd workspace set-id '1234567890'
Validieren
Wir können nun überprüfen, ob das Verzeichnis den Anforderungen von OCR-D
genügt. Dazu verwenden wir den validate Unterbefehl von ocrd workspace.
Bei der Validierung überspringen wir die Untersuchung der Auflösung, da
diese aus technischen Gründen häufig nicht gegeben ist, was zu Fehlern führt, die keine sind.
$ ocrd workspace validate --skip pixel_density mets.xml
<report valid="true">
</report>
Fertig!
Das Verzeichnis ist nun in einer Form, dass es mit OCR-D Werkzeugen weiterverarbeitet werden kann.
Im Ergebnis sollte das von Ihnen erstellte Verzeichnis dem Beispieldatensatz im OCR-D/assets Repository entsprechen.