R1.2. (Meta-)Daten enthalten detaillierte Provenienz-Informationen

„Provenienz“ bezieht sich hier nicht auf die Besitz- und Herkunftsgeschichte der in den Daten beschriebenen Objekte, sondern auf die Daten und Metadaten selbst. Provenienz-Informationen geben an, zu welchem Zweck und unter welchen Projektfragestellungen die Daten generiert wurden und woher das Datenmaterial stammt. Sie erklären außerdem, wie die Daten modifiziert wurden, in welchem Kontext sie wiederverwendet werden können und wie zuverlässig sie sind. Ergänzen Sie daher die Metadaten oder die publizierte Begleitdokumentation Ihres Projekts um folgende Aspekte:

  • Benennung aller an der Bearbeitung der Daten mitwirkenden Personen mit ihren Rollen und Anteilen, soweit datenschutzkonform möglich
  • Beschreibung der Motivation, die zur Erstellung der Daten geführt hat (Projektziele und Schwerpunkte)
  • Beschreibung der Methoden, die angewendet wurden
  • Beschreibung des Arbeitsablaufs, der zur Erzeugung der Daten geführt hat: Wurden die Daten maschinell generiert oder händisch-intellektuell erzeugt? Wie wurden sie weiterverarbeitet?
  • Wenn Daten aus anderen Quellen verwendet wurden: Beschreibung der Herkunft, ihrer Verwendung und Modifikation
  • Für die Datenerzeugung, -bearbeitung oder -betrachtung der Daten verwendete Software: Skripte, Programmcode, DTDs oder XML-Schema-Dateien unter Angabe der Version
  • verwendete Datenmodelle, Formate, Ontologien, Schreib- und Redaktionsanweisungen in maschineninterpretierbarer Form, z. B. als XML, DTDs oder XML-Schema-Dateien unter Angabe der Version
  • Erstellungs- und Modifikationszeitpunkte der Daten und Metadaten
  • Quellenbelege für Aussagen und Informationen, die Sie übernommen haben

Bei dynamischen Daten ist erstrebenswert, frühere Versionen verfügbar und über einen PID adressierbar zu halten, um die Zitierfestigkeit der Datensatzinhalte zu gewährleisten. Publizieren Sie auch im Projektkontext erstellte Software unter einer möglichst offenen Lizenz, z. B. über Github.

Weitere Informationen zur Dokumentation von Daten

E. Böker: Warum dokumentieren?, in: Forschungsdaten.info, 14.11.2022

Benennungskonventionen einhalten

Die Einhaltung von präzisen und konsistenten Benennungskonventionen – allgemein anerkannter Muster für die Benennung von Daten – erleichtert künftigen Generationen von Forschenden das Auffinden, den Zugriff und das Verständnis von digitalen Objekten und Datensätzen erheblich. Hinweise zum Benennen und Organisieren von Dateien gibt der Verbund Forschungsdaten Bildung.

Die Rolle der Datenproduzierenden

Konsultieren Sie die Richtlinien bewährten Verfahren für Ihre Forschungsdisziplin oder Ihren Fachbereich, um die am besten geeignete Namenskonvention zu finden. Beginnen Sie mit der Umsetzung bereits zu Beginn Ihres Projekts und halten Sie die Konventionen von Anfang an ein.

Die Rolle des Betreibenden der Datenplattform

Nennen Sie die Best Practices zur Erstellung und Anwendung spezifischer Namenskonventionen.

Daten systematisch dokumentieren

Um klarzustellen, was in einem Datenbestand erwartet werden kann und was nicht, sollten die Daten systematisch dokumentiert werden. Die diesbezügliche Transparenz fördert das Vertrauen und damit die Wiederverwendung der Daten.

Die Rolle der Datenproduzierenden

Integrieren Sie detaillierte Provenienz-Informationen in Ihre Forschungsdaten und publizieren Sie diese mit.
Bittet Ihr Repositorium Sie um die aussagekräftige Beschreibung Ihres Datensets mit Metadaten, füllen Sie das bereitgestellte Formular sorgfältig und ausführlich aus. Tun Sie dies auch für Abschnitte, die als nicht-obligatorisch und optional bezeichnet werden.

Die Rolle des Betreibenden der Datenplattform

Stellen Sie Dokumentationsvorlagen zur Verfügung, die eine Beschreibung des Layouts, der Struktur und der Inhalte von Datensammlungen enthalten und die Erstellung der zu Beginn dieses Abschnitts genannten Begleitdokumentation erleichtert. Ebenso kann die Methodik, eine Liste der Abkürzungen, eine Beschreibung der Datenlücken, der Aufbau der Datenbank usw. bereitgestellt werden. Sie erleichtern Datengeber:innen eine systematische Dokumentation der Datenprovenienz.

Datenintegrität bewahren

Erhobene Forschungsdaten sollten mit den später zugänglichen Forschungsdaten identisch sein. Um die Zuverlässigkeit der Daten zu gewährleisten, sollten Prüfungen zur Datenintegrität durchgeführt werden.

Die Rolle der Datenproduzierenden

Implementieren Sie eine Methode zur Versionskontrolle. Hierbei können Sie häufig bestimmte Funktionen Ihrer Software nutzen. Die Garantie, dass jede Änderung in einer überarbeiteten Version eines Datensatzes korrekt dokumentiert wird, ist von wesentlicher Bedeutung für die Authentizität eines jeden Datensatzes.

Die Rolle des Betreibenden der Datenplattform

Um festzustellen, ob eine Datei geändert wurde, ist es unerlässlich, im Rahmen einer Versionskontrolle die Provenienz aufzuzeichnen – die Herkunft der Daten und alle Änderungen, die im Laufe der Zeit vorgenommen wurden – und jede Kopie mit dem Original zu vergleichen. Eine Prüfung der Datenintegrität kann mit Hilfe eines Prüfzeichens, z. B. einer Prüfsumme, oder durch einen direkten Vergleich zweier Dateien erfolgen. Es sollte ein Mechanismus für den Umgang mit unterschiedlichen Versionen vorgesehen werden, z. B. durch Hinzufügen einer Versionskomponente zum Identifikator als Suchparameter.

Beispiel: Verfahren zur DOI-Versionierung bei Zenodo, Abschnitt DOI versioning