„Provenienz“ bezieht sich hier nicht auf die Besitz- und Herkunftsgeschichte der in den Daten beschriebenen Objekte, sondern auf die Daten und Metadaten selbst. Provenienz-Informationen geben an, zu welchem Zweck und unter welchen Projektfragestellungen die Daten generiert wurden und woher das Datenmaterial stammt. Sie erklären außerdem, wie die Daten modifiziert wurden, in welchem Kontext sie wiederverwendet werden können und wie zuverlässig sie sind. Ergänzen Sie daher die Metadaten oder die publizierte Begleitdokumentation Ihres Projekts um folgende Aspekte:
Bei dynamischen Daten ist erstrebenswert, frühere Versionen verfügbar und über einen PID adressierbar zu halten, um die Zitierfestigkeit der Datensatzinhalte zu gewährleisten. Publizieren Sie auch im Projektkontext erstellte Software unter einer möglichst offenen Lizenz, z. B. über Github.
E. Böker: Warum dokumentieren?, in: Forschungsdaten.info, 14.11.2022
Die Einhaltung von präzisen und konsistenten Benennungskonventionen – allgemein anerkannter Muster für die Benennung von Daten – erleichtert künftigen Generationen von Forschenden das Auffinden, den Zugriff und das Verständnis von digitalen Objekten und Datensätzen erheblich. Hinweise zum Benennen und Organisieren von Dateien gibt der Verbund Forschungsdaten Bildung.
Konsultieren Sie die Richtlinien bewährten Verfahren für Ihre Forschungsdisziplin oder Ihren Fachbereich, um die am besten geeignete Namenskonvention zu finden. Beginnen Sie mit der Umsetzung bereits zu Beginn Ihres Projekts und halten Sie die Konventionen von Anfang an ein.
Nennen Sie die Best Practices zur Erstellung und Anwendung spezifischer Namenskonventionen.
Um klarzustellen, was in einem Datenbestand erwartet werden kann und was nicht, sollten die Daten systematisch dokumentiert werden. Die diesbezügliche Transparenz fördert das Vertrauen und damit die Wiederverwendung der Daten.
Integrieren Sie detaillierte Provenienz-Informationen in Ihre Forschungsdaten und publizieren Sie diese mit.
Bittet Ihr Repositorium Sie um die aussagekräftige Beschreibung Ihres Datensets mit Metadaten, füllen Sie das bereitgestellte Formular sorgfältig und ausführlich aus. Tun Sie dies auch für Abschnitte, die als nicht-obligatorisch und optional bezeichnet werden.
Stellen Sie Dokumentationsvorlagen zur Verfügung, die eine Beschreibung des Layouts, der Struktur und der Inhalte von Datensammlungen enthalten und die Erstellung der zu Beginn dieses Abschnitts genannten Begleitdokumentation erleichtert. Ebenso kann die Methodik, eine Liste der Abkürzungen, eine Beschreibung der Datenlücken, der Aufbau der Datenbank usw. bereitgestellt werden. Sie erleichtern Datengeber:innen eine systematische Dokumentation der Datenprovenienz.
Erhobene Forschungsdaten sollten mit den später zugänglichen Forschungsdaten identisch sein. Um die Zuverlässigkeit der Daten zu gewährleisten, sollten Prüfungen zur Datenintegrität durchgeführt werden.
Implementieren Sie eine Methode zur Versionskontrolle. Hierbei können Sie häufig bestimmte Funktionen Ihrer Software nutzen. Die Garantie, dass jede Änderung in einer überarbeiteten Version eines Datensatzes korrekt dokumentiert wird, ist von wesentlicher Bedeutung für die Authentizität eines jeden Datensatzes.
Um festzustellen, ob eine Datei geändert wurde, ist es unerlässlich, im Rahmen einer Versionskontrolle die Provenienz aufzuzeichnen – die Herkunft der Daten und alle Änderungen, die im Laufe der Zeit vorgenommen wurden – und jede Kopie mit dem Original zu vergleichen. Eine Prüfung der Datenintegrität kann mit Hilfe eines Prüfzeichens, z. B. einer Prüfsumme, oder durch einen direkten Vergleich zweier Dateien erfolgen. Es sollte ein Mechanismus für den Umgang mit unterschiedlichen Versionen vorgesehen werden, z. B. durch Hinzufügen einer Versionskomponente zum Identifikator als Suchparameter.
Beispiel: Verfahren zur DOI-Versionierung bei Zenodo, Abschnitt DOI versioning