Alle in einem Repositorium gespeicherten Daten sollten in offenen, international anerkannten, standardisierten Dateiformaten vorliegen, um eine langfristige Interoperabilität in Bezug auf Nutzbarkeit, Zugänglichkeit und Nachhaltigkeit zu gewährleisten.
Hier finden Sie Empfehlungen für Dateiformate im Bereich der Kulturwissenschaften und des Kulturerbes.
Bestimmen Sie schon zu Beginn Ihres Forschungsprojekts, welche zukunftssicheren Dateiformate für Ihr Projekt in Frage kommen. Verwenden Sie bevorzugte Formate, die von Ihrem Repositorium oder Ihrer Datenplattform empfohlen werden und die unabhängig von spezifischer Software, Entwicklern oder Anbietern genutzt werden können. Wenn Sie nicht von Anfang an mit diesen Datenformaten arbeiten, stellen Sie sicher, dass eine inhaltlich verlustfreie Konvertierung der Daten in empfohlene Formate erfolgen kann. Publizieren Sie die (Meta-)Daten ggf. in mehreren Formaten.
Fördern Sie die Verwendung von Formaten, die für die langfristige Aufbewahrung geeignet sind. Stellen Sie einen leicht verständlichen und detaillierten Überblick über die akzeptierten bzw. empfohlenen Dateiformate bereit. Wenn Sie die Konvertierung von Dateiformaten vornehmen, stellen Sie dies als Teil Ihres Dienstleistungsangebots dar. Falls funktionale Langzeitarchivierung nicht durch Ihr Dienstleistungsspektrum abgedeckt ist, sollten Sie dies ebenfalls klarstellen (z. B. im Fall ausschließlicher Bitstream Preservation).
Beispiel: Das Rijksmuseum Amsterdam publiziert seine Metadaten auf einer OAI-PMH-Schnittstelle in den Formaten LIDO, EDM und Dublin Core.
Die Verwendung eines Datenstandards, der von einer großen Community unterstützt wird, erhöht die Möglichkeit der gemeinsamen Nutzung, Wiederverwendung und Kombination von Datensammlungen. Nutzen Sie nach Möglichkeit die in Ihrer Community verwendeten oder übergreifende Standards. In diesem Abschnitt der Handreichung wird die Bedeutung von Datenstandards ausführlicher erläutert.
Sowohl die Syntax als auch die Semantik von Datenmodellen und -formaten, die für (Meta-)Daten in digitalen Objekten verwendet werden, sollten für Maschinen leicht zu identifizieren, zu analysieren, weiterzuverarbeiten oder zu übersetzen sein. Wie im Fall von Identifizierungsschemata und kontrollierten Vokabularen kann eine Vielzahl von Datenformaten prinzipiell FAIR sein.
Es liegt auf der Hand, dass jedes softwarebasierte Synchronisationsverfahren zur Analyse und Konvertierung von Daten fehleranfällig ist, und es wäre ideal, die Veröffentlichung von FAIRen Daten auf bestimmte von der Community akzeptierte Formate und Standards zu beschränken. Wenn ein Forschender jedoch nachweisen kann, dass ein alternatives Datenmodell oder -format eindeutig wie eines der akzeptierten FAIRen Formate verarbeitet werden kann, gibt es keinen Grund, ein solches Format nicht ebenfalls als FAIR anzusehen.
Hier finden Sie Empfehlungen für Rahmenwerke und Referenzmodelle und für Metadatenstrukturen (Elementsets, Schemata) im Bereich der Kulturwissenschaften und des Kulturerbes.
Erkundigen Sie sich frühzeitig bei dem Repositorium, in dem Sie Ihre Daten hinterlegen wollen, welche Datenstandards dort unterstützt werden. Prüfen Sie, ob diese Ihrem Forschungsgegenstand angemessen sind. Strukturieren Sie Ihre Daten von Beginn Ihres Forschungsprojekts entlang dieses Formats.
Wenn Ihr Forschungsprojekt besondere Herausforderungen mit sich bringt, die mit den vorhandenen Datenstandards nicht angemessen abgebildet werden können, versuchen Sie, eigene Erweiterungen auf ein Minimum zu begrenzen. Suchen Sie Beratung bei Fachleuten für den in Frage kommenden Standard. Sie können Ihnen oft angemessene Wege zur Modellierung der Daten im Rahmen bereits vorhandener Möglichkeiten aufzeigen. Wenn Sie dennoch lokale Erweiterungen vornehmen möchten, dokumentieren Sie diese so, dass sie ebenfalls FAIR nachnutzbar sind und erkundigen Sie sich beim Repositorium Ihrer Wahl, ob und in welcher Form diese Erweiterungen aufgenommen und verarbeitet werden können.
Stellen Sie, so weit wie möglich, maschinenlesbare Daten und Metadaten mit einem gut etablierten Rahmenwerk bereit. Legen Sie klar fest, welche Datenstandards Ihre Einrichtung unterstützt und publizieren Sie Hinweise, wie die Daten für eine bestmögliche Nachnutzung ausgestattet sein sollten, z. B. durch Belegung bestimmter Kernfelder.
Unterstützen Sie Fachinitiativen rund um die Pflege, den Ausbau und die Vermittlung dieser Standards, insbesondere mit Blick auf die Interoperabilität.
Beispiel: Hinweise der Deutschen Digitalen Bibliothek zu den Kernelementen der Lieferformate in den Teilnahmekriterien, Abschnitt Metadaten
Die klare Dokumentation von Metadatenschemata hilft Entwickler:innen, Metadaten zu vergleichen und einander in einem Mapping zuzuordnen. In diesem Vorgang werden Datenelemente aus zwei verschiedenen Datenmodellen zum Zweck der Informationsintegration aufeinander abgebildet.
Nutzen Sie nach Möglichkeit existierende Metadatenschemata, die in Ihrer Fachcommunity häufig Verwendung finden oder die Ihr Repositorium vorgibt. Referenzieren Sie eindeutig, möglichst mit einem PID, auf die verwendeten Modelle und ihre Dokumentation, unter Angabe der verwendeten Version.
Lokale Erweiterungen oder Eigenentwicklungen sollten vermieden werden. Werden sie dennoch erstellt, sollten sie sorgfältig dokumentiert, mit freien Lizenzen versehen und mit den übrigen Forschungsdaten publiziert werden.
Veröffentlichen Sie die Metadatenschemata, die von Ihrer Forschungsinfrastruktur unterstützt werden. Dokumentieren Sie technische Spezifikationen und definieren Sie Klassen und Eigenschaften. Führen Sie auf, welche Komponenten obligatorisch und welche optional sind bzw. empfohlen werden.
Gewährleisten Sie, dass alle verwendeten Datenelemente definiert und eindeutig sind, um Fehlinterpretationen zu verhindern. Ein Element mit dem Label „Ort“ kann z. B. ein Entstehungsort, aktueller oder früherer Aufbewahrungsort oder Geburtsort einer Person sein.
Falls die Metadaten ursprünglich in einem anderen Datenschema erstellt wurden, erleichtern diese Informationen ein Mapping seitens des Datenproduzierenden. Liegen bereits sorgfältig erstellte Mappings von Metadatenschemata vor, sollten diese publiziert werden, um eine möglichst große Konvergenz weiterer Datenbestände zu gewährleisten, die entsprechend gemappt werden müssen.
Um die Qualität der (Meta-)Daten und damit die Interoperabilität zu verbessern, sollten (automatische) Prozesse zur Bereinigung, Generierung und Anreicherung von (Meta-)Daten eingeführt werden. Sie können sowohl die Datenqualität in einem aktuellen Projekt verbessern als auch dazu dienen, bereits vorhandene Daten deutlich besser nachnutzbar zu machen.
Führen Sie Verfahren ein, die das Risiko von Fehlern bei der Datenerfassung minimieren. Nutzen Sie Funktionen der Datenbanksoftware, die Sie beim Identifizieren der korrekten Begriffe und Entitäten aus einem kontrollierten Vokabular unterstützen und die deren PIDs automatisiert in Ihre Daten übertragen. Wählen Sie z. B. Bezeichnungen und PIDs über ein in die Software integriertes Modul aus, oder übertragen Sie ein Datum aus einem Kalender, anstatt es von Hand einzutragen. Nutzen Sie konfigurierbare Obligatorikprüfungen Ihrer Software zur Unterstützung einer Dateneingabe gemäß definierter Pflichtvorgaben, so dass Sie bei abweichenden Eingaben gewarnt werden oder nicht speichern können. Machen Sie nachgängige Konsistenz- und Vollständigkeitsprüfungen für Daten-Kernfelder, indem Sie Daten gegen ein passendes Metadatenschema validieren oder redaktionelle Softwaretools einsetzen.
Für die nachgängige Qualitätsverbesserung von Datenbeständen hat sich das Tool OpenRefine bewährt, mit dem Daten geordnet, strukturiert und transformiert und auf Normdaten referenziert werden können. Die nachgängige Referenzierung auf Normdaten und Vokabulare unterstützen auch Cocoda und das Europeana Archaeology Vocabulary Tool.
Wenn Sie strukturierte Metadaten zu den Entitäten erstellen, die im Rahmen Ihrer Forschungsarbeit behandelt werden (z. B. Werke, Objekte, Personen, Orte, Ereignisse) oder wenn es um die Bestandserschließung von Sammlungen in Bibliotheken, Museen oder Archiven geht, muss auch geplant werden, mit welcher Detailliertheit die Objekte erschlossen werden sollen. Berücksichtigen Sie hier die Empfehlungen der jeweiligen Metadatenschemata, die in Ihrer Domäne verwendet werden. Elemente mit der Kennzeichnung „Kernfeld“, „obligatorisch“ oder „empfohlen wenn vorhanden“ sollten mit FAIRem kontrollierten Vokabular (vgl. I.2) besetzt werden, wenn es inhaltlich geboten ist und eine Information zu dem jeweiligen Sachverhalt vorliegt. Auf diese Weise wird auch unabhängig von bestimmten Dokumentationsschwerpunkten gewährleistet, dass das Objekt unter den Kerninformationen aufgefunden werden kann, mit denen Nutzer:innen meist suchen. Dies stärkt die Konsistenz der Datenbestände und damit die Interoperabilität in übergeordneten Kontexten.
Beschreiben Sie auch den Sammlungsbestand, bzw. bestimmte Teilbestände als solche und erschließen Sie, unter welchen inhaltlichen Gesichtspunkten sie relevant sind. So können Sammlungsbestände auch in Suchsystemen aufgefunden werden, die auf allgemeinere Ebenen von Bestandsnachweisen zielen.
Minimieren Sie die Wahrscheinlichkeit von Fehlern bei der Metadateneingabe durch automatisierte Validierungsregeln oder Prüfung der Angaben auf Vollständigkeit.
Richten Sie feste und transparente Geschäftsgänge ein, in denen eine Qualitätskontrolle nach Möglichkeit bereits verankert ist. Dies ist z. B. durch ein Rollenkonzept möglich, das verschiedenen Nutzenden unterschiedliche Rechte zuweist, um interne Verantwortlichkeiten abzubilden und Kurationsworkflows zu unterstützen und Reviewoptionen durch Dritte (externe Gutachter) zulässt. Beide Optionen sind bei RADAR realisiert.
Bündeln Sie Bestrebungen zur Entwicklung von Workflows und Softwarelösungen für solche automatischen Prozesse, z. B. durch den Einsatz von Werkzeugen für maschinelles Lernen. Wenn es die Auffindbarkeit und Nachnutzbarkeit der Daten stark verbessert, investieren Sie in Tools zur Bereinigung von (Meta-)Daten und zur Konvertierung von Daten in standardisierte und interoperable Datenformate.
Falls die Produktion und Kuratierung der Daten ein kontinuierlicher Prozess auf Seiten des Datenproduzierenden ist und Daten periodisch in modifizierter Form neu in das Repositorium eingebracht werden, sollten Sie anbieten, die von der Datenplattform erzielten qualitativen Verbesserungen in die Originaldaten re-integrierbar zu machen.
Die OpenRefine-Website bietet eine Vielzahl von Empfehlungen zur Anwendung des Tools an, die von Nutzer:innen erstellt wurden. Darunter sind auch deutschsprachige Tutorials für Einsteiger:innen.
Über die OpenRefine Service API abgleichbare Datenquellen (darunter GND, VIAF, Getty Vokabulare, Wikidata, GeoNames) sind hier aufgelistet.
Die 2022 überarbeitete Version der DFG-Praxisregeln "Digitalisierung" empfiehlt, die Sammlungsbeschreibung mit dem selben Metadatenschema anzulegen, das für die Bestandsobjekte genutzt wird (z. B. MODS, TEI-Header, EAD, LIDO) oder DCAT zu nutzen.
Weitere Beispiele: DARIAH Collection Registry; Teilbestandsverzeichnung der Library of Congress mit EAD