3.2. Die FAIR-Prinzipien gelten sowohl für Daten als auch für Metadaten

Die 15 Grundsätze der FAIR-Prinzipien beziehen sich auf die „(Meta-)Daten“. Was bedeutet das? Sie gelten einerseits für die eigentlichen Datenelemente (Bitsequenzen). Beispiele hierfür sind ein Text, eine Datei, ein Bild, Quellcode einer Software, ein 3D-Modell, ein Dienst oder Zeitreihen (Audiosignale). Es kann sich aber auch um ein Aggregat vieler Einheiten handeln, die ihrerseits separat adressiert werden können, wie z. B. eine Datenbank, ein digitalisiertes Buch, die digitalisierten Materialien eines Nachlasses, ein Aufzeichnungssystem, eine Software oder eine Forschungsdatenpublikation mit mehreren Komponenten.
Metadaten beschreiben die Eigenschaften anderer Daten. Sie geben Auskunft über ihren Inhalt, ihre Eigenschaften oder ihre Struktur. Sie geben an, in welchen Kontexten sie stehen oder wie sie genutzt werden können.
Im Prozess der Umsetzung der FAIR-Prinzipien nehmen Daten und Metadaten unterschiedliche Funktionen ein. Die eingesetzten Methoden, um Daten und die zugehörigen Metadaten FAIR zu machen, können sich unterscheiden. Auch der Grad der FAIRness kann für beide Komponenten unterschiedlich sein. Daher ist es zuerst notwendig, die beiden Komponenten zu identifizieren und sie als digitale Objekte (DO) zu strukturieren.

Digitale Objekte als Organisationseinheiten

Ein digitales Objekt ist zunächst „ein Objekt, das sich aus einer Reihe von Bitsequenzen zusammensetzt“. Das bedeutet, dass jede Datei als digitales Objekt betrachtet werden kann. Einige digitale Objekte können einfach strukturiert sein, z. B. eine Textdatei. Ein Video, das sich aus mehreren Elementen zusammensetzt (Videospur, Audiospur, Containerdatei und möglicherweise weitere), kann als ein komplexes digitales Objekt betrachtet werden.

Um von maschinellen Agenten interpretiert werden zu können, muss das digitale Objekt adressierbar sein, es muss strukturiert und typisiert werden. Zu diesem Zweck wird der Bitsequenz ein Identifikator, möglichst ein global eindeutiger und persistenter Identifikator (PID), und eine Beschreibung seiner Eigenschaften in Form einer Metadateneinheit zugewiesen. Bitsequenz, PID und Metadaten sind über eindeutige Relationen zu einem erweiterten digitalen Objekt verbunden, das sich als adressierbare und auswertbare Wissenseinheit darstellt.

Abb. 1: Beziehungen zwischen Bestandteilen eines digitalen Objekts, seinem Aggregator und Repositorium. Smedt, K. / Koureas, D. / Wittenburg, P.: FAIR Digital Objects for Science: From Data Pieces to Actionable Knowledge Units, in: Publications, 2020, 8. 21., fig. 4. CC-BY 4.0

Im Bereich der Gedächtnisinstitutionen (Bibliotheken, Archive, Museen) wird der Begriff „Metadaten“ in der Regel für die Zusatzinformationen verwendet, mit denen die dort verwahrten, häufig physischen Objekte, Sammlungen und Ressourcen geordnet, beschrieben und verwaltet werden. Es ist daher durchaus üblich, dass Metadaten nicht-digitale Entitäten behandeln, die materiell oder immateriell, konkret wie abstrakt sein können. Statt auf eine Bitsequenz können sich Metadaten z. B. auf ein Gemälde, ein Libretto, einen Quellentext, eine Person, einen geografischen Ort, ein Ereignis oder einen Begriff der Ideengeschichte beziehen. Wenn Normdaten zu diesen nicht-digitalen Entitäten vorhanden sind, kann man sie über Normdaten-PIDs adressieren. Das digitale Objekt enthält in diesem Fall als Bitsequenz einen Datensatz in einem strukturierten Format, der seinerseits Metadaten zu einem nicht-digitalen Gegenstand enthält.

Um die Funktion von Metadaten besser zu verstehen, ist es hilfreich, sie in verschiedene Kategorien zu unterteilen. Für die FAIRness der Daten spielen sie alle eine Rolle.

  • Administrative Metadaten sind Daten über eine Bitsequenz oder einen Gegenstand, die für ihre Verwaltung relevant sind. Dazu gehören Angaben über ihre Art und ihre Zugehörigkeit zu einem bestimmten Projektkontext, z. B. Projekt-/Ressourceneigentümer:innen, Forschungsleitung, Projektmitarbeiter:innen, Finanzierung, Projektzeitraum, Entstehungsdatum der Bitsequenz. Zu dieser Gruppe von Metadaten gehören auch
    • technische Metadaten – Informationen, die zur Verwendung und Verarbeitung von Dateien erforderlich sind (Dateiformat, Bildauflösung, Kompressionsrate, Hardware- und Softwareanforderungen, Authentifizierungs- und Sicherheitsdaten wie z. B. Passwörter),
    • rechtliche Metadaten – Informationen zu geistigem Eigentum und Nutzungsrechten,
    • Provenienz-Metadaten zur Herkunft von Informationen und den Modifikationen, die die Bitsequenz oder der Metadatensatz selbst erfahren haben. Sie benennen z. B. Akteur:innen, Zeitpunkte und die Art und Methoden der Bearbeitung oder die zugrunde liegenden Informationsquellen.
    • Archivierungsmetadaten – Informationen, die für die langfristige Verwaltung und Archivierung digitaler Bestände erforderlich sind. Sie gewährleisten die Integrität eines digitalen Objekts während der gesamten Aufbewahrungszeit. Ein gängiges Modell hierfür ist PREMIS (Preservation Metadata Implementation Strategies).
  • Deskriptive Metadaten sind Daten über eine Bitsequenz oder einen Gegenstand, die es menschlichen und maschinellen Akteur:innen ermöglichen, sie zu finden, zu identifizieren und zu zitieren, z. B. zu Autorschaft oder Herstellungskontexten, Titel, Themenschlagwörter, persistente Identifikatoren, verwandte Publikationen und Objekte.
  • Strukturelle Metadaten beschreiben die interne Organisation komplexer digitaler Objekte oder Gegenstände und stellen den Zusammenhang zwischen ihren Bestandteilen oder zu weiteren digitalen Objekten her. Über METS oder TEI-Auszeichnungen stellen sie z. B. ein digitales Inhaltsverzeichnis für einen digitalisierten frühneuzeitlichen 120-seitigen Druck bereit und ermöglichen so die sinnvolle Organisation der Untereinheiten für die Nachnutzung.

Die für das digitale Objekt relevanten Metadateninformationen können je nach Datenformat und angestrebtem Nutzungskontext unterschiedlich sein. Es ist in der Regel davon auszugehen, dass Metadaten nicht nur in der für sie angelegten Dokumentation (z. B. einer Datenbank oder Tabelle), sondern auch auf der Ebene von Software- und Systemkonfigurationen oder der Prozesskontrolle (z. B. Logdateien) zu lokalisieren sind und von dort extrahiert werden müssen.

Beispiel einer born digital Bilddatei (Bitsequenz) und ihrer Metadaten

Administrative Metadaten

  • technisch: Dateiformat, Größe, Auflösung, Farbtiefe, Kompressionsrate
  • rechtlich: Lizenzierung, Nutzungsrechte, Rechteinhaber
  • Provenienz: Entstehungsinformationen der Primärdatei (Kamerahersteller:in und -modell, Belichtungszeit, Geokoordinaten des Aufnahmeorts), Veränderungshistorie (Konvertierung und Bildbearbeitung unter Benennung der verwendeten Software, Verfahren, Formate, technischen Parameter, Zeitpunkte und Akteur:innen)

Deskriptive Metadaten

  • Fotografin/Fotograf, Aufnahmezeitpunkt, Identifikation der dargestellten Entität (z. B. Person, Objekt, Ereignis, Ort), Kontext, Motivation zur Anfertigung der Bilddatei, Referenz auf andere per PID adressierbare Versionen und Nutzungskontexte

Der PID des digitalen Objekts führt in der Regel auf eine Landing Page, eine HTML-Seite, die Metadaten über das digitale Objekt zeigt. Diese muss für Menschen und Maschinen ausreichend Informationen enthalten, um das digitale Objekt zu identifizieren zu können. Die Landing Page muss ihnen außerdem den Zugang zur Bitsequenz selbst (Text, Bild, Video) wie auch zu eventuell vorhandenen weiteren Metadaten ermöglichen. Die Maschineninterpretierbarkeit der Metadaten kann gewährleistet werden, indem sie über schema.org in die Header der HTML-Seite eingebettet werden.