OCR-D Formulaire de métadonnées pour les données de ground truth

️À faire

Suivre les examples. Si nécessaire, modifier manuellement l'output : ce formulaire aide à structurer la description et à s'assurer que toutes les rubriques sont documentées.
  • Enregistrez le fichier METADATA.yml dans votre référentiel.
  • Transférez le fichier METADATA.yml dans le catalogue HTR-United.
  • Télécharger le fichier METADATA.yml.

Aide

Document GT
Le Ground Truth contient des documents annotés et des documents complets. Un document complet est, entre autres, un livre ou un article. Des annotations du texte et de la structure du document (par exemple : titres, paragraphes, notes de bas de page) ont été effectuées.
Structure GT
La vérité fondamentale contient des parties de documents annotées, comme des pages ou des paragraphes individuels. Seule l'annotation de la structure du document (par exemple : titres, paragraphes, notes de bas de page) a été effectuée.
Structure et Texte GT
La vérité de base contient des parties de document annotées telles que des pages ou des paragraphes individuels. Les annotations du texte et de la structure du document (par exemple : titres, paragraphes, notes de bas de page) ont été effectuées.
Lignes GT
Le Ground Truth contient uniquement des lignes de document annotées. Des annotations du texte et de la ligne ont été effectuées.
Pour un aperçu des niveaux de transcription, voir https://tboenig.github.io/gt-guidelines/html/trans/trLevels.html.

Le niveau mixte comprend des transcriptions qui correspondent à plusieurs niveaux. Il n'y a pas de compatibilité entre les niveaux, voir par exemple la césure.
Pour évaluer le niveau de transcription, veuillez lire les GT-Guidelines.
L'indication de l'environnement d'entraînement indique avec quel logiciel le modèle OCR a été créé ou entraîné, par ex. tesseract [version].

Les champs dont le nom est suivi d'un * sont obligatoires.

Informations générales sur le set de données

Les fichiers CITATION.cff permettent de fournir un mode de citation assez simple sur github par exemple. Lien: https://citation-file-format.github.io/

Les licenses sont ici proposées à titre indicatif.

Informations générales sur le projet

Acteur-rice-s du projet
Rôles

Informations générales sur les données

Préférez, pour des données au siècle près, 1200 pour un début au 13e siècle et 1299 pour une fin au 13e siècle. Les dates n'ont pas besoin d'être précises, cela reste une indication

Pour faciliter l'entrée de données, des valeurs par défaut sont sélectionnées. Cliquez dessus pour les désélectionner.
Pour faciliter l'entrée de données, des valeurs par défaut sont sélectionnées. Cliquez dessus pour les désélectionner.

Normes de transcriptions utilisées (format libre). Peut concerner la résolution des abréviations, corrections de fautes d'orthographe, l'usage de caractères spéciaux, la normalisation, etc.

Informations détaillées sur les données


Le format APA est préféré pour les citations, ce qui peut donner des références longues comme Allport, G. W. (1930–1967). Correspondence. Gordon W. Allport Papers (HUG 4118.10), Harvard University Archives, Cambridge, MA, United States., cf. APA Style. Des formats plus courts sont autorisé. Le lien ou la référence APA peuvent suffire.

Informations détaillées sur le modèle OCR entraîné avec le GT.

Générer le fichier METADATA.yml


Enregistrer le fichier de métadonnées METADATA.yml 📂 dans votre référentiel. Inscrivez également votre dépôt Ground Truth sur HTR-United et ⮂ transférez les métadonnées. Vous pouvez également 📄 télécharger le fichier.