3. Handlungsrahmen und Leitlinien für Forschungsdatenqualität

Für Datenproduzierende wichtige Hilfsmittel zur Sicherstellung von Datenqualität können allgemeine oder institutionsspezifische Leitlinien, Forschungsdaten-Policies oder anerkannte generische Prinzipien sein. Bei der Umsetzung können darüber hinaus Datenmanagementpläne, die Anwendung bestimmter Standards und Normen, die Befolgung spezieller Empfehlungen oder die Anwendung von Zertifizierungsverfahren, wie beispielsweise Gütesiegel für die Bewertung der Qualität von Forschungsdatenrepositorien bzw. Langzeitarchiven, helfen. Zu den bekanntesten dieser Zertifikate gehört das Core Trust Seal, das in seiner jüngsten Form auch Anforderungen zum Digital Object Management integriert, darunter die Quality Assurance (R10) der archivierten digitalen Objekte. Im Gegensatz dazu evaluiert das Nestor-Siegel die „vom digitalen Langzeitarchiv eingesetzten Lösungen, nicht jedoch die Qualität der zu archivierenden Inhalte“ (nestor - Kompetenznetzwerk Langzeitarchivierung, S. 7).

Für die korrekte und einheitliche Datenerfassung in Infrastruktureinrichtungen dienen im Allgemeinen verbindliche Regelwerke und Schreibanweisungen. Zur qualitativen Analyse der Daten selbst bieten sich technische Werkzeuge für den Abgleich von Werten, für Fehlersuchen, Dublettenprüfungen, Konsistenz- und Plausibilitätschecks an, oder das Erfassungssystem unterstützt Datenqualität durch maschinelle Prüfungen (Schema-Validierung, Obligatoriken, Eingabehilfen etc.). Manche Parameter sind wiederum nicht ohne Weiteres in den Daten selbst überprüfbar und können nur über Befragungen von Portalbetreibern etc. herausgefunden werden.

Allgemeine Hilfsmitttel zur Qualitätssicherung von Forschungsdaten

Einen Handlungsrahmen für qualitätsfördernde Verhaltensweisen bieten die Leitlinien zur Sicherung guter wissenschaftlicher Praxis der Deutschen Forschungsgemeinschaft (DFG) . Untrennbar damit verbunden ist eine „kontinuierliche, forschungsbegleitende Qualitätssicherung“ (Leitlinie 7: Phasenübergreifende Qualitätssicherung, S. 14). Gemeint sind bestimmte Verhaltensweisen, die den Forschungsprozess objektiv nachvollziehbar machen, z. B. die Einhaltung fachspezifischer Standards, Methoden und Verfahren bei der Erhebung, Verarbeitung und Analyse von Daten und die Verwendung geeigneter und verfügbarer Hard- und Software (ebd.).

Die DFG hat noch weitere wichtige Maßnahmen in die Wege geleitet, um die Qualität wissenschaftlicher Daten zu fördern. Zu den bekanntesten Empfehlungen auf nationaler Ebene zählen die DFG-Praxisregeln „Digitalisierung“ . Sie beinhalten einige grundsätzliche Qualitätsvorgaben für unstrukturierte Daten (Bilder, OCR-Texte, 3D-Objekte) und Kerndatensatz-Empfehlungen für die beschreibenden Metadaten, aber keinen konkreten Vorschlag bezüglich deren Messbarkeit, auch wenn sich daraus Messparameter ableiten ließen (vgl. ebd. Abs. 3.3, S. 26–30). Die DFG-Checkliste zum Umgang mit Forschungsdaten in DFG-Projekten enthält im Fragenkatalog zum Forschungsdatenmanagement, der mittlerweile als Datenmanagementplan in der Instanz des Research Data Management Organiser (RDMO) von NFDI4Culture zur Verfügung steht, ebenfalls Anforderungen zur Sicherung der Datenqualität. Darüber hinaus gibt es für die NFDI-Konsortien das Ergänzende Datenblatt , mit dem diese periodisch bestimmte Kennzahlen an die DFG liefen müssen. Mit Blick auf die Forschungsdaten und deren Datenqualität sind darin im Wesentlichen zwei Indikatoren relevant:

  1. die Anzahl der von den Datenanbietern bereitgestellten Datensets (vgl. Kapitel 6.2), die Art dieser Daten und ihre Zusammensetzung (Indikator 3001; "bereitgestellte Datensets" bezieht sich hier auf Datensets, die das Konsortium als Teil seiner eigenen Datendomäne betrachtet und gemäß den FAIR-Prinzipien entweder innerhalb des Konsortiums und/oder über eine assoziierte Einrichtung in der Rolle eines Antragstellers, Mitantragstellers oder Participants auffindbar, zugänglich, interoperabel und/oder wiederverwendbar macht)
  2. die Anzahl der Datensets, welche die vom Konsortium festgelegten Qualitätskriterien erfüllen (Indikator 3002)

Die Indikatoren für die geforderten Kennzahlen sind sehr allgemein formuliert, was den Konsortien die Möglichkeit eröffnet, ihre Qualitätskriterien domänenspezifisch zu definieren. Die Kriterien sollten jedoch nachvollziehbar und messbar sein und sind zu belegen und/oder zu beschreiben. Darüber hinaus gilt die Auflage, dass jedes Konsortium unter Bezug auf allgemein anerkannte Referenzsysteme ein Rahmenwerk zur Prüfung und Sicherung seiner Datenqualität benennt oder entwickelt.