Praxis: OCR von willkürlichen Bildern

Der Fokus von OCR-D ist auf Massendigitalisierung historischer Bestände. Deswegen wird konsequent immer METS verwendet.

Um mit willkürlichen Bildern innerhalb OCR-D zu arbeiten, müssen wir daher METS erzeugen.

Als Beispiel verwenden wir die erste Seite der englischen Ausgabe des Kommunistischen Manifests (Quelle: https://upload.wikimedia.org/wikipedia/commons/thumb/1/18/Manifesto_of_the_Communist_Party.djvu/page15-2745px-Manifesto_of_the_Communist_Party.djvu.jpg).

Neues METS erzeugen

Der workspace Unterbefehl erlaubt es, neues METS zu initiieren (init):

$ ocrd workspace init communist_manifesto
22:58:38.321 INFO ocrd.resolver - Writing /home/kba/build/github.com/OCR-D/monorepo/slides/2019-03-25-dhd/communist_manifesto/mets.xml
22:58:38.322 INFO ocrd.workspace - Saving mets '/home/kba/build/github.com/OCR-D/monorepo/slides/2019-03-25-dhd/communist_manifesto/mets.xml'
/home/kba/build/github.com/OCR-D/monorepo/slides/2019-03-25-dhd/communist_manifesto

$ find communist_manifesto
communist_manifesto
communist_manifesto/mets.xml

Verzeichnis für Bild anlegen

Per Konvention heisst die Dateigruppe mit dem unkomprimierten Bild innerhalb von OCR-D immer OCR-D-IMG:

$ cd communist_manifesto
$ mkdir OCR-D-IMG

Bild herunterladen

$ curl 'https://raw.githubusercontent.com/OCR-D/assets/master/data/communist_manifesto/data/OCR-D-IMG/OCR-D-IMG_0015' > OCR-D-IMG/OCR-D-IMG_0015.png

Bild zum METS hinzufügen

Dateien können mit dem add Unterbefehl von ocrd workspace hinzugefügt werden.

Dafür sind eine Reihe von Parametern notwendig, die Sie der Hilfe entnehmen können:

$ ocrd workspace add --help
Usage: ocrd workspace add [OPTIONS] LOCAL_FILENAME

  Add a file LOCAL_FILENAME to METS in a workspace.

Options:
  -G, --file-grp TEXT  fileGrp USE  [required]
  -i, --file-id TEXT   ID for the file  [required]
  -m, --mimetype TEXT  Media type of the file  [required]
  -g, --page-id TEXT   ID of the physical page
  --force              If file with ID already exists, replace it
  --help               Show this message and exit.

Wir fügen also die Datei hinzu:

$ ocrd workspace add -g P0015 -G OCR-D-IMG -i OCR-D-IMG_0015 -m image/png OCR-D-IMG/OCR-D-IMG_0015.png

Und überprüfen ob sie wirklich hinzugefügt wurde:

$ ocrd workspace find
OCR-D-IMG/OCR-D-IMG_0015

Eindeutigen Identifier hinzufügen

Nun setzen wir noch einen eindeutigen Identifier:

$ ocrd workspace set-id '1234567890'

Validieren

Wir können nun überprüfen, ob das Verzeichnis den Anforderungen von OCR-D genügt. Dazu verwenden wir den validate Unterbefehl von ocrd workspace. Bei der Validierung überspringen wir die Untersuchung der Auflösung, da diese aus technischen Gründen häufig nicht gegeben ist, was zu Fehlern führt, die keine sind.

$ ocrd workspace validate --skip pixel_density mets.xml
<report valid="true">
</report>

Fertig!

Das Verzeichnis ist nun in einer Form, dass es mit OCR-D Werkzeugen weiterverarbeitet werden kann.

Im Ergebnis sollte das von Ihnen erstellte Verzeichnis dem Beispieldatensatz im OCR-D/assets Repository entsprechen.