3.5. Erfassen von Metadaten

In der digitalen Langzeitarchivierung werden nicht nur Forschungsdaten archiviert, sondern immer auch Informationen über diese Dateien – die Metadaten. Erst durch sie wird das Archivpaket nachhaltig nutzbar. Aus Metadaten muss ablesbar sein, was das digitale Objekt repräsentiert, wenn dieses Jahre später wieder aus einem Archiv entnommen wurde.

Metadaten sollten spätestens bei der Einreichung ins Archiv bzw. der Erstellung von Informationspaketen vorliegen. Im Idealfall werden sie aber bereits bei der Erfassung der Forschungsdaten mitbedacht (→siehe Abschnitte Datenmanagementplan und →FAIRe Forschungsdaten, bzw. den Abschnitt Empfehlungen für Metadatenstrukturen der NFDI4Culture-Handreichung zum Thema FAIR). Sie können deskriptive, strukturelle, administrative sowie technische Informationen enthalten. Bevor Datengebende bzw. Forschende mit der Erhebung von Metadaten beginnen, sollten sie sich beim Archiv erkundigen, welche Daten erfasst und wie diese dokumentiert werden.

Deskriptive Metadaten beschreiben den Projektkontext und erschließen die Inhalte der Projektdaten. Sie werden in der Regel manuell erfasst. Hierzu gehören u. a. Titel, Namen beteiligter Personen und Institutionen sowie Themenschlagwörter. Deskriptive Metadaten sind besonders für das Auffinden und auch die Wiederverwendung eines digitalen Objektes im Kontext von Linked-Data-Anwendungen wichtig.

Dabei sollte möglichst auf Normdaten und kontrollierte Vokabulare zurückgegriffen werden. Hierzu gehören:

Bei den meisten Repositorien sind bestimmte Felder für Normdaten-IDs zur Verschlagwortung und die Vergabe weiterer Metadaten vorab festgelegt.

In manchen Fällen besteht die Möglichkeit, in enger Abstimmung mit einem Datenkurator zusätzliche Schlagwörter zu vergeben. Das kann erforderlich sein, wenn angebundene Vokabularien bestimmte Forschungsfelder nicht oder nur unzureichend abdecken, z. B. im Kontext außereuropäischer Kulturen.

Strukturelle Metadaten erläutern die Dokumentstruktur. So kann z. B. die Struktur eines retrodigitalisierten Buches durch Seitenzählung beschrieben werden, wobei jede Seite auf ein gescanntes Bild sowie einen mittels OCR-Software erstellten Volltext verweist.

Administrative Metadaten klären verwaltungsspezifische und rechtliche Rahmenbedingungen wie Urheberrecht, Weitergabe und Lizenzierung und liefern darüber hinaus auch Kontaktdaten.

Technische Metadaten geben z. B. Informationen zur Nutzung der Software und zur Einstellung der Hardware. Sie werden größtenteils automatisch durch die Erfassungssoftware erstellt. Bei einer digitalen Fotografie sind das unter anderem Auflösung, Verschlusszeit, Blende, geografische Position, Erstelldatum und -zeit sowie die verwendete Hard- und Software. Im Bereich 3D werden verwendete Scanner und deren Einstellungen nicht immer von allen Geräten aufgezeichnet und müssen daher manuell dokumentiert werden. Es ist empfehlenswert, verwendete Hilfsmittel wie Drehteller oder Stative, aber auch alle Bearbeitungsschritte mit Parametern und Ergebnissen zu erfassen, wie z. B. das Entfernen von Störungen oder das Anwenden von Transformationen.

Alle Metadaten werden für Objekttypgruppen in fachlicher und archivarischer Zusammenarbeit festgelegt, was üblicherweise Bestandteil der Übernahmevereinbarung ist.

Um alle Arten von Metadaten einfach maschinell weiterverarbeiten zu können, müssen diese möglichst in verbreiteten Metadatenschemata bereitgestellt werden. Im SLUBArchiv.digital werden beispielsweise alle Metadaten zum Archivgut durchweg als XML-Dateien festgehalten.

Metadatenschemata sind Zusammenstellungen von Elementen zur Beschreibung von Daten. Im Folgenden werden Metadatenschemata vorgestellt, die in der digitalen Langzeitarchivierung häufig verwendet werden:

  • PREMIS (Preservation Metadata DOPPELPUNKT Implementation Strategies) hat sich zum De-facto-Standard für LZA-Metadaten entwickelt. Es wird insbesondere für technische und Provenienz-Metadaten verwendet.
    Das PREMIS Data Dictionary beschreibt dabei wesentliche, für die Langzeitarchivierung relevante semantische Einheiten. PREMIS ist implementierungsagnostisch, d. h. es kann neben XML auch in einer anderen Auszeichnungssprache wie z. B. RDF implementiert werden.
  • Das Schema METS (Metadata Encoding and Transmission Standard) wird oft für die Beschreibung von Sammlungsstrukturen verwendet. Als sogenanntes Containerformat kann es auch andere Schemata enthalten, beispielsweise:
    • MODS (Metadata Object Description Schema) findet dabei Anwendung für umfangreiche beschreibende Metadaten,
    • das Schema Dublin Core und das DataCite Metadata Schema für einfache deskriptive Metadaten,
    • das Schema TEI (Text Encoding Initiative) für Metadaten von Texteditionen,
    • MEI (Music Encoding Initiative) für Metadaten musikalischer Werke,
    • LIDO (Lightweight Information Describing Objects) für deskriptive und administrative Metadaten von 2D-Bildern, 3D-Digitalisaten und -Modellen und materiellen (nicht-digitalen) Objekten, und
    • XMP (Extensible Metadata Platform) für technische Metadaten von 2D- oder 3D-Digitalisaten.

Schließlich sollten digitale Ressourcen und auch die in den Daten benannten nicht-digitalen Entitäten wie Personen, Körperschaften, Geografika, Werke, Begriffe etc. innerhalb der Metadaten über global eindeutige, dauerhaft gültige Identifikatoren, wie z. B. DOIs, Handles, ARKs oder URNs, verknüpft sein (→siehe Abschnitt Persistente Identifikatoren).

Weiterführende Informationen

Zu Metadaten:

  • Kailus, Angela: Handreichung für ein FAIRes Management kulturwissenschaftlicher Forschungsdaten, 2023. https://nfdi4culture.de/go/E3508.
  • Altenhöner, Reinhard / Berger, Andreas / Bracht, Christian / Klimpel, Paul / Meyer, Sebastian / Neuburger, Andreas / Stäcker, Thomas / Stein, Regine: DFG-Praxisregeln ‚Digitalisierung‘. Aktualisierte Fassung 2022, 2023. https://doi.org/10.5281/ZENODO.7435724
  • Lindlar, Michelle / Panitz, Michael / Gadiraju, Ujwal: Ingest and Storage of 3D Objects in a Digital Preservation System, 2015. https://doi.org/10.5281/zenodo.1115512
  • DURAble ARchitectural Knowledge: DURAARK Schemas for Ingestion and Storage of 3D Objects in a Digital Preservation System [Software], 2015. https://github.com/DURAARK/Schemas

Zu Normdaten:

Zu PREMIS:

Zur Text Encoding Initiative (TEI):

Zur Music Encoding Initiative (MEI):

Zu LIDO:

Zu SLUBRights: