8.2 Erste Umsetzungsstufe für Datenqualität: FAIR Makro-Analyse

Mit der Verzeichnung aller Datenangebote der Konsortiums mit zugehörigen Metadaten begannen gleichzeitig Überlegungen, wie dabei auch die Qualität der Daten in den jeweiligen Datenportalen und Repositorien erfasst werden kann. Aufgrund der großen Breite des zu analysierenden Datenspektrums war im ersten Schritt ein pragmatisches Vorgehen notwendig. Deshalb haben wir zunächst stellvertretend je einen wesentlichen Indikator aus den vier FAIR-Prinzipien herausgegriffen, mit dem die FAIRness zunächst grob auf einer Makroebene beschrieben werden kann:

  1. die Verwendung von Persistenten Identifikatoren (PIDs) für Daten und/oder Metadaten (Findable 1)
  2. die Bereitstellung von Daten über APIs (Accessible 1)
  3. die Verwendung bestimmter Normdaten und kontrollierter Vokabulare pro Portal (Interoperable 2)
  4. die Nutzung von Metadaten-Standardformaten aus unserem Bereich (Reusable 1.3)

Im Sinne des EOSC Data Quality Frameworks sind mit den vier Kriterien grundlegende Mindestanforderungen abgedeckt (EOSC Data Quality Framework, S. 24; vgl. zudem Kap. 6.1): Wenn diese fehlen, ist das Datenangebot zumindest für maschinelle Auswertungen nicht oder nur sehr eingeschränkt nutzbar oder verstehbar, seine Gebrauchstauglichkeit ist dementsprechend limitiert. Die Erfüllung der Mindestanforderungen garantiert eine ausreichende, aber nicht unbedingt optimale Qualität des Datensatzes.

Danach wurden für jeden Indikator bestimmte Prüfmerkmale festgelegt, die jeweils in Wertelisten festgehalten sind. Die Auswahl der Merkmale trägt den in unseren Communities verbreiteten Standards Rechnung, ist aber gleichzeitig so breit aufgestellt, dass die Unterschiedlichkeit der Angebote berücksichtigt ist (siehe Tabs).

Ein weiterer, separat bewerteter und gleichrangig zu den vier anderen gewichteter Indikator ist die Bereitstellung von Daten zur Integration in den Culture Knowledge Graph, oder deren erfolgreiche Umsetzung. Dieses Kriterium ist vor allem für das FAIR-Prinzip der Auffindbarkeit, aber auch für die Interoperabilität und die Nachnutzbarkeit relevant. Datenbestände aus den verschiedenen Domänen, wie digitale Musikeditionen oder Repräsentationen materieller Kulturgüter, werden zwar nie vollständig interoperabel sein, können aber über den Culture Knowledge Graph miteinander verbunden und disziplinenübergreifend nachgenutzt werden. Dieser Indikator kann in der Regel nicht von den Datenanbietenden allein, sondern nur in Zusammenarbeit mit dem Konsortium realisiert werden. Die Umsetzung wird erheblich erleichtert, wenn das Datenangebot hinsichtlich der zuvor genannten und von den FAIR-Prinzipien abgeleiteten Indikatoren von guter Qualität ist.

Ergab die Analyse der Datenangebote, dass mindestens ein Prüfmerkmal im Bereich eines jeden Indikators vorhanden war oder die Daten für den Culture Knowledge Graph bereit waren, so galt der Indikator als umgesetzt. Die Erfüllung mehrerer Prüfmerkmale für einen Indikator führte nicht zu einer Höherbewertung des Angebots.

Dazu zwei Beispiele:

  • Ein Repositorium, das DOIs anbietet, eine REST-API aufweist, Daten im DataCite-Format bereitstellt, Personen mit ORCID referenziert und in den Culture Knowledge Graph integriert wurde, bekommt 5 Punkte.
  • Eine Datenplattform mit Permalinks, verfügbar über OAI-PMH, mit Datenangebot in Dublin Core und im LIDO-Format, GND- und GeoNames-Normdatenreferenzen sowie Culture Knowledge Graph-Integration bekommt ebenfalls 5 Punkte.

Technisch wird diese Makro-Analyse nun im Culture Information Portal folgendermaßen verankert:
Die einzelnen Prüfmerkmale aus den Listen werden als Defined Terms (vgl. Kapitel 8.1) angelegt und können bei der Datenerfassung zukünftig als Metadaten zu den Datenangeboten ausgewählt werden. Sie können auch im Frontend des Portals ausgespielt werden, so dass die Nutzenden wichtige Informationen zur Qualität der Daten in den Datenportalen und Repositorien erhalten.