2.1 Relevanz von Datenqualität

Datenqualität spielt eine zentrale Rolle im Rahmen von multidisziplinären Forschungsdaten-Infrastrukturen auf nationaler und internationaler Ebene. Für die entstehende European Open Science Cloud (EOSC) erläutert die Task Force FAIR Metrics and Data Quality der EOSC Association grundlegende Konzepte rund um den Begriff Datenqualität, um in diesem Kontext die Basis für ein gemeinsames Verständnis zu schaffen. Ihr zufolge ist Datenqualität von entscheidender Bedeutung, um die Glaubwürdigkeit, Legitimität und praktische Einsetzbarkeit der Ressourcen innerhalb der EOSC zu gewährleisten.

In Anlehnung an die Definition im ISO-Standard 8000, dem internationalen Standard für Datenqualität und Stammdaten, verstehen die Autorinnen unter Datenqualität den Grad, in dem ein Satz inhärenter Merkmale von Daten bestimmte Anforderungen erfüllt. Da der Abgleich der faktischen Datenmerkmale mit den gewünschten Anforderungen erfolgt, hängt die Qualität vom Kontext sowie von den Beteiligten ab, die an deren Festlegung mitwirken. Die Anforderungen wiederum müssen einen klaren Zielaspekt und ein zu erreichendes Niveau aufweisen.

Dabei gibt es einerseits nicht-funktionale Anforderungen, die sich zunächst auf die Zuverlässigkeit und Gebrauchstauglichkeit der Daten ohne einen bestimmten Anwendungskontext beziehen (fit for use). Funktionale Anforderungen zielen dagegen auf die Zweckdienlichkeit von Daten in einem bestimmten Nutzungskontext (fit for purpose). Das Datenqualitätsmanagement stellt sicher, dass wertvolle Informationen zum Verständnis der Daten verfügbar und diese zunächst gebrauchstauglich sind, auf der nächsten Stufe aber auch zweckdienlich, also im gewünschten Nachnutzungskontext, eingesetzt werden können. Dieser kann weit vom ursprünglichen Erstellungszweck der Daten entfernt sein. Daher müssen ausreichend Informationen bereitgestellt werden, damit die Nutzenden die Eignung für ihren Zweck selbst einschätzen können.

Formen der Nachnutzung

Innerhalb der datengetriebenen Forschung beispielsweise der Einsatz Künstlicher Intelligenz/Machine Learning, korpuslinguistische Verfahren/Stilometrie, Text Mining (Topic Modeling, Natural Language Processing), Linked Data-Projekte und Netzwerkanalysen.