Datenqualität lässt sich in mehreren Dimensionen beschreiben, die vor allem intrinsische, extrinsische und technische Faktoren umfassen. Deren Definition und Abgrenzung ist in der umfangreichen Literatur zu diesem Thema nicht einheitlich. Die wichtigsten Aspekte dieser Dimensionen seien nachfolgend in Anlehnung an die Ergebnisse aus dem für NFDI4Culture relevanten Projekt Kontinuierliches Qualitätsmanagement von dynamischen Forschungsdaten zu Objekten der materiellen Kultur (KONDA) dargestellt (siehe Tabs):
Intrinsische Faktoren betreffen die Datenwerte in ihrem Kern sowie ihre Struktur, d. h. die logische Gliederung der Informationen. Sind diese konsistent, syntaktisch und semantisch korrekt, genau, eindeutig und vollständig? Ist ihre Darstellung konzise und konsistent? Zu den typischen Fehlerkategorien bei Vollständigkeit (Completeness) gehören z. B. Lücken, fehlende Elemente und Referenzen in den Daten, etwa wenn keine Einträge in Pflichtfeldern vorhanden sind, Verlinkungen zu Normdaten oder Quellenangaben fehlen. Genauigkeit (Accuracy) bezieht sich auf den Grad, mit dem Daten reale Informationen richtig darstellen, auf die Exaktheit und Stimmigkeit der Angaben. Diese Dimension wird manchmal in Korrektheit (Correctness) und Prägnanz (Precision) unterteilt, um differenzierte Datenanalysen zu ermöglichen. Prägnanz und Eindeutigkeit (Uniqueness) sind nicht gegeben, wenn z. B. die Informationen nicht exakt genug sind, verschiedene Informationen in einem Datenfeld stehen, Maßeinheiten von Objekten voneinander abweichen. Auch zweifelhafte Werte, Abkürzungen, widersprüchliche und uneinheitliche Angaben von unsicherem Wissen und Redundanzen/Dubletten gehören dazu. Zu grobe oder falsch platzierte Werte und Angaben unzureichender Granularität verletzen die Prägnanz und die syntaktische und semantische Korrektheit der Daten, ebenso wie die Wahl eines falschen Datentyps, eine Missachtung der Datenstruktur (Hierarchien) oder Abhängigkeitsfehler (Missachtung von Datenfeld-Dependenzen, widersprüchliche Bezüge/Relationen). Die Konsistenz (Consistency) ist beeinträchtigt, wenn es unterschiedliche bzw. uneinheitliche Schreibweisen von Datumsangaben gibt, bei fehlerhafter Sprachkennzeichnung oder bei Falschschreibung.
Die Gruppe der extrinsischen oder kontextuellen Qualitätsmerkmale leitet sich von der Verwendbarkeit der Daten für Dritte ab und weist daher in Teilen auch Ähnlichkeiten mit den 2016 formulierten FAIR-Prinzipien auf. Faktoren wie Zugänglichkeit (Zugriff und Abruf von Daten durch autorisierte Personen oder Maschinen), Verständlichkeit (z. B. Verwendung bekannter und innerhalb der Community anerkannter Terminologien in Wertelisten, Lesbarkeit der Daten auch für Menschen), Vertrauenswürdigkeit (kuratierte, fachliche geprüfte Datenbestände aus bekannten Einrichtungen oder zertifizierten Angeboten), Nachvollziehbarkeit (bei ausreichender Dokumentation der Datenbestände mit Meta-Informationen), Relevanz (Kontextbezogenheit, Zweckmäßigkeit in bestimmten Nutzungsszenarien), Aktualität und Darstellbarkeit spielen hier eine Rolle.
Die Beurteilung und Sicherung der wissenschaftlichen Qualität von Dateninhalten gehört zu den anspruchsvollsten Aufgaben im Datenqualitätsmanagement. Wissenschaftliche Qualität von Kulturdaten unterscheidet sich von den genannten objektiv messbaren Qualitätsdimensionen, da sie stark an den jeweiligen epistemischen Rahmen, den gegebenen Kontext und an individuelle Fragestellungen gebunden ist. Was in einem Fall als wertvoll, innovativ und relevant gilt, kann in einem anderen nur bedingt nutzbar oder sogar unbrauchbar sein. So kann etwa ein Datenbestand, der für linguistische Analysen ausreichend ist, für allgemeine kulturhistorische Fragen unzureichend erscheinen und umgekehrt. Dimensionen wie Aktualität, methodische Nachvollziehbarkeit, Vertrauenswürdigkeit und Erschließungstiefe variieren und können nicht universell als Maßstab angewandt werden.
Wissenschaftliche Qualität ist nicht Gegenstand des vorliegenden Reports, da sie im Gegensatz zu intrinsischen Kriterien wie Vollständigkeit oder Korrektheit nicht automatisiert und fachübergreifend geprüft werden kann. Allerdings sollte gemäß EOSC-Empfehlungen beim Datenanbieter eine fachliche Beurteilung der Daten vorgenommen und in einer Meta-Dokumentation strukturiert beschrieben werden.
Aspekte wie die Validität von Erhebungs- und Aufbereitungsmethoden, die Angemessenheit der vergebenen Klassifikationen und die Konsistenz der Metadaten im Hinblick auf aktuelle Fachstandards sind dann entscheidend für eine Bewertung.
Wissenschaftliche Qualität setzt Expertenurteile mit einem Transparenzgebot voraus: Es sollte ersichtlich sein, welcher Akteur zu welchem Zeitpunkt auf welcher fachlichen Grundlage eine solche Bewertung vorgenommen hat. Die fachliche Beurteilung kann in Form von Gutachten durch Fachredaktionen, Peer-Reviews, projektbezogenen Datenblättern oder begleitenden Berichten realisiert werden, die auf die jeweilige Domäne und den Forschungszweck zugeschnitten sind.
Aus technischer Sicht ist es wichtig, dass Daten nicht nur gut dokumentiert und valide sind, sondern auch effektiv maschinell durchsucht, verarbeitet und verknüpft werden können. Der Zugang zu ihnen (gemäß maschinenlesbarer Lizenz oder Authentifizierung) sowie die Möglichkeit zur software-unabhängigen Aus- und Verwertung und zur Darstellung (geeignete Formate), sollten gegeben sein. Die Formate zeichnen sich dadurch aus, dass sie möglichst international etabliert und langlebig (Pflege und Weiterentwicklung) sind und dass sie sich gut für die Langzeitarchivierung eignen.
Wie sich die genannten Qualitätsdimensionen zu der allgemein geforderten guten wissenschaftlichen Praxis verhalten, muss spekulativ bleiben, da der DFG-Kodex von 2019 nicht explizit auf intrinsische Aspekte von Datenqualität oder die Prüfbarkeit und Herstellung von Datenqualität im Speziellen eingeht. Es wird lediglich darauf hingewiesen, dass Fehler bei der Datenerhebung durch die Anwendung von fachgerechten Methoden beim Einsatz von Geräten („das Kalibrieren von Geräten, (...) sowie (...) das Führen von Laborbüchern“ ) vermieden werden können (vgl. DFG-Kodex 2019, Leitlinie 7: Phasenübergreifende Qualitätssicherung, S. 14).
Rat für Informationsinfrastrukturen. Herausforderung Datenqualität – Empfehlungen zur Zukunftsfähigkeit von Forschung im digitalen Wandel, Göttingen 2019, A12–A14, https://rfii.de/?p=4043
Kesper, Arno / Wenz, Viola / Taentzer, Gabriele: Detecting quality problems in research data: a model-driven approach, in: Association for Computing Machinery. Proceedings of the 23rd ACM/IEEE International Conference on Model Driven Engineering Languages and Systems (MODELS '20), New York 2020, pp. 354–364, https://doi.org/10.1145/3365438.3410987.
Király, Peter / Brase, Jan: 4.3 Qualitätsmanagement, in: Putnings, Markus / Neuroth, Heike / Neumann, Janna: Praxishandbuch Forschungsdatenmanagement, Berlin/Boston 2021, https://doi.org/10.1515/9783110657807, S. 361 f.
Lacagnina, Carlo / David, Romain / Nikiforova, Anastasija et al.: TOWARDS A DATA QUALITY FRAMEWORK FOR EOSC 2023, https://doi.org/10.5281/zenodo.7515816, S. 53.
Stein, Regine / Taentzer, Gabriele: How to Define the Quality of Data and Data Models? A Perspective from the Cultural Heritage Domain, 2023, https://doi.org/10.5281/zenodo.7705014.