3.1. Sowohl Menschen als auch Maschinen sind als „Datenauswerter“ vorgesehen

Die Menge der Veröffentlichungen im digitalen Raum nimmt immer mehr zu, dazu kommt eine Vielzahl von heute vorhandenen digitalen Werkzeugen, Aufbereitungs- und Auswertungsmethoden, die neue Wege in der Entdeckung und Analyse relevanter Datenbestände erlauben. Menschen sind deshalb immer mehr auf die Unterstützung durch Computer angewiesen, um die für sie jeweils relevanten Daten zu finden und auszuwählen. Die FAIR-Prinzipien sollen daher die optimale Nachnutzbarkeit für Mensch und Maschine gleichermaßen gewährleisten. „Maschinentauglichkeit“ ist hier die Fähigkeit von Computersystemen, Daten ohne oder mit nur minimalem menschlichem Eingriff zu finden, darauf zuzugreifen, sie zu integrieren und wiederzuverwenden.

„Maschinell verwertbar“ ist ein digitales Objekt, wenn es Informationen bereitstellt, die es einem autonom agierenden, computergestützten Algorithmus ermöglichen,

  • die Art des digitalen Objekts sowohl in Bezug auf die Struktur als auch auf die Zweckbestimmung zu identifizieren,
  • zu bestimmen, ob es im Kontext der aktuellen Aufgabe nützlich ist, indem er Metadaten und/oder Datenelemente (Bitsequenzen) abfragt,
  • zu bestimmen, ob es in Bezug auf die Lizenz oder andere Zugänglichkeits- oder Nutzungsbeschränkungen nutzbar ist,
  • es ähnlich nachzunutzen, wie es ein Mensch mit vergleichbarer Fragestellung tun würde und
  • die Herkunft der Daten sorgfältig aufzuzeichnen, um die gesammelten Daten angemessen zitieren zu können.

Eine gute Forschungsdatenverwaltung gemäß den FAIR-Prinzipien ermöglicht ein Netz von Daten und Diensten, die sich gegenseitig finden, miteinander kommunizieren und für die Wiederverwendung verfügbar bleiben. Grundlegend dafür sind Linked Data-Technologien. Sie basieren darauf, dass digitale Objekte und mit ihnen verbundene Ressourcen über Uniform Resource Identifier (URIs) global eindeutig identifizierbar sind. Das ist die Voraussetzung, dass sie über eine Verbindung mit Identifikationssystemen (z. B. Ontologien) typisiert, kategorisiert und damit auch von Maschinen „verstanden“ werden können. In gleicher Weise werden die Beziehungen zwischen Ressourcen mit URIs ausgewiesen. Die führenden übergreifenden Standards zur Kodierung von Semantik sind RDF (Resource Description Framework), das die Syntax für Datenaustausch definiert, OWL (Web Ontology Language), eine formale Beschreibungssprache zur Erstellung, Publikation und zum Austausch von Ontologien, und SKOS (Simple Knowledge Organization System), eine formale Sprache zur Kodierung von Dokumentationssprachen wie Thesauri, Klassifikationen oder anderen kontrollierten Vokabularen. Die eingebettete, mit den Daten verbundene Semantik bietet erhebliche Vorteile bei der qualifizierten Auswertung der Daten und dem Umgang mit inhaltlich heterogenen Datenquellen.

Die Rolle von Datenstandards

Die Grundfunktion von Datenstandards ist es, Informationen durch einheitliche Kodierung oder Gleichmäßigkeit der Beschreibung besser auswertbar zu machen. Ihre Funktionsfähigkeit ist nicht in der Vorgabe begründet, sondern vielmehr im gemeinsamen Gebrauch. Es sind die am weitesten verbreiteten Systeme und Konventionen innerhalb einer Anwendergemeinschaft, die festlegen, welche Arten von Informationen für jedes Informationsobjekt in einer Datensammlung auf welche Weise erfasst werden. Sie sind in der Regel gut dokumentiert, und sie haben aktive Anwendergemeinschaften, die kontinuierlich an ihrer inhaltlichen und technischen Weiterentwicklung und an den Softwaresystemen arbeiten, um sie an die aktuellen und zukünftigen Herausforderungen anzupassen. Ein Beispiel für eine solche Adaption ist das Dokumentenformat Text Encoding Initiative (TEI), das, ausgehend von seinem ursprünglichen Anwendungskontext in spezialisierten Forschungsbibliotheken, heute international in einer Vielzahl fachlich breit ausgerichteter Texteditionsprojekte eingesetzt wird.

Die konsequente Nutzung von Standards ist bei der Erstellung der Metadaten einschließlich ihrer Quellen und Erhebungsbedingungen besonders wichtig. Bei einer maschinellen Nachnutzung der Metadaten ist dies Voraussetzung für ihre Auswertbarkeit. Standards sichern die mittel- und längerfristige Verständlichkeit und Nachnutzbarkeit der Daten ab und ermöglichen, dass Personen mit Daten weiterarbeiten können, die sie nicht selbst erstellt haben. Wenn kaum verbreitete oder schlecht dokumentierte Formate, Schemata oder Modelle verwendet werden oder die Daten in Software eingebettet sind, die proprietär ist oder wegen mangelnder Pflege oder Dokumentation nicht (mehr) zugänglich ist, ist die Verständlichkeit der Daten häufig bereits nach wenigen Jahren selbst für Menschen nicht mehr gewährleistet.

Welche Standards jeweils befolgt werden sollten, hängt von den Gepflogenheiten der Fachdomäne im Umgang mit der jeweiligen Materialart, dem Dokumentationsinteresse des Forschungsprojekts und von der Art der zu erzeugenden Daten ab. Bestandserschließungsprojekte in Kulturerbe-Institutionen orientieren sich in der Regel daran, was in in ihrer Sparte – sei es Bibliothek, Archiv, Museum oder Denkmalpflege – verbreitet verwendet wird. Für Digitalisierungsprojekte in bestandshaltenden Einrichtungen sind die DFG-Praxisregeln „Digitalisierung“ seit vielen Jahren eine weit über die Spartengrenzen und den ursprünglich intendierten Kontext der DFG-Antragstellung hinaus anerkannte und bewährte Good-Practice-Empfehlung zur Qualitätssicherung mit Hilfe von Standards. Sie wurden 2023 in einer aktualisierten Fassung vorgelegt.
Mit Blick auf zukünftige Nachnutzungsmöglichkeiten der Forschungsdaten sollten Datenproduzierende aber immer auch Standards sondieren, die in einer Fachdomäne vielleicht noch nicht verbreitet eingesetzt werden, aber der Fragestellung angemessen erscheinen und viel Potential für eine gute Interoperabilität und Wiederverwendbarkeit der Daten haben. Dies gilt insbesondere für die Vokabularstandards.

Die für Forschungsdaten relevanten Datenstandards beziehen sich auf mehrere Geltungsbereiche. Empfehlungen für die von NFDI4Culture vertretenen Fachgebiete finden Sie auf den hier verlinkten Seiten dieser Handreichung.

  • Standard-Dateiformate gewährleisten in hohem Maß, dass die Dateien zu einem späteren Zeitpunkt und von anderen Akteuren verwendet werden können. Hier finden Sie Empfehlungen für Dateiformate.
  • Referenzmodelle (top-level ontologies) sind komplexe Sets von Repräsentationselementen (Klassen, Attribute und Beziehungen), mit denen ein Wissens- oder Diskursbereich modelliert werden kann. Die Definitionen der Elemente enthalten Informationen über ihre Bedeutung und Beschränkungen für ihre logisch konsistente Anwendung. Sie ermöglichen es den Maschinen, Metadaten zu „verstehen“, indem auf der Grundlage von Ableitungsregeln aus vorhandenen Daten neue Fakten erschlossen werden können. Hier finden Sie Empfehlungen für Rahmenwerke und Referenzmodelle.
  • Metadatenstandards legen Kriterien, Methoden und Prozesse fest, nach denen die Dokumentation in bestimmten Fachcommunities erfolgen soll, um Daten später gemeinsam nutzen zu können. Gemäß dem Zweck, für den sie entwickelt wurden, untergliedern sie sich in drei Bereiche:
    • Daten-Inhaltsstandards oder Katalogisierungsregeln legen fest, wie bestimmte Ressourcen, Objekte oder Sachverhalte beschrieben werden sollen. Sie empfehlen, wie Informationen strukturiert und formatiert werden sollen und welches Vokabular verwendet werden soll. Hier finden Sie Empfehlungen für Metadateninhalte.
    • Daten-Strukturstandards beziehen sich auf Metadaten-Elementsets. Sie geben die Struktur, den Inhalt, die Semantik und den Umfang von Metadaten in Form eines Kategorienschemas vor. Liegen sie in Form eines Metadatenschemas vor, sind sie auch technisch verarbeitbar. Hier finden Sie Empfehlungen für Metadatendatenstrukturen.
    • Standards für Datenwerte beziehen sich auf kontrollierte Vokabulare, deren Verwendung als Datenwert in den Elementen des Metadatenschemas empfohlen wird. Kontrollierte Vokabulare gewährleisten, dass Begriffe (“units of thought”) definiert, mit eindeutigen Bezeichnungen versehen und in Beziehung zueinander gesetzt werden können. Ihre Verwendung ist die Voraussetzung für vollständige und präzise Suchergebnisse und die richtige Verknüpfung vergleichbarer Daten. Hier finden Sie Empfehlungen für Vokabulare, Normdaten und Anwendungsontologien.