Ground Truth Guidelines

Über Die Ground-Truth-Guidelines von OCR-D

Der Einsatz von Referenzdaten für Training und Auswertung statistischer Annotations- und Analyseverfahren ist ein Kernmerkmal empirischer Forschung. Die wichtigste Grundlage für die erfolgreiche Verwendung solcher Verfahren liegt im Einsatz geeigneter, den Algorithmen zugrunde liegender Modelle. Für deren Erstellung ist neben einem passenden Lernverfahren das Vorhandensein von Ground Truth die wesentliche Voraussetzung.

Mit den OCR-D-Ground-Truth-Guidelines wurden Richtlinien geschaffen, die eine Format-Dokumentation des vorhandenen Ground Truth darstellt und als Handlungsanweisung für die Ground-Truth-Erstellung genutzt werden kann. Mit dieser Normierung ist eine Operationalisierung möglich, die eine Validierung des Ground Truth beinhaltet und eine einfache Möglichkeit der Kuratierung von vorhandenen Transkriptionen, die als Ground Truth genutzt werden könnten, bietet. Das Datenformat des OCR-D-Ground-Truth ist PAGE-XML. Dieses Format wurde initial durch das PRImA Research Lab an der Universität Salford Greater Manchester entwickelt und innerhalb des EU-Projektes IMPACT grundlegend erweitert. Zurzeit wird es vom PRImA Research Lab betreut. Um eine Weiterentwicklung und Pflege dieses Formates zu gewährleisten, wurde auf Initiative von OCR-D ein PAGE-XML-Board geschaffen.

Zu den Ground-Truth-Guidelines