Die Menge der Veröffentlichungen im digitalen Raum nimmt immer mehr zu, dazu kommt eine Vielzahl von heute vorhandenen digitalen Werkzeugen, Aufbereitungs- und Auswertungsmethoden, die neue Wege in der Entdeckung und Analyse relevanter Datenbestände erlauben. Menschen sind deshalb immer mehr auf die Unterstützung durch Computer angewiesen, um die für sie jeweils relevanten Daten zu finden und auszuwählen. Die FAIR-Prinzipien sollen daher die optimale Nachnutzbarkeit für Mensch und Maschine gleichermaßen gewährleisten. „Maschinentauglichkeit“ ist hier die Fähigkeit von Computersystemen, Daten ohne oder mit nur minimalem menschlichem Eingriff zu finden, darauf zuzugreifen, sie zu integrieren und wiederzuverwenden.
„Maschinell verwertbar“ ist ein digitales Objekt, wenn es Informationen bereitstellt, die es einem autonom agierenden, computergestützten Algorithmus ermöglichen,
Eine gute Forschungsdatenverwaltung gemäß den FAIR-Prinzipien ermöglicht ein Netz von Daten und Diensten, die sich gegenseitig finden, miteinander kommunizieren und für die Wiederverwendung verfügbar bleiben. Grundlegend dafür sind Linked Data-Technologien. Sie basieren darauf, dass digitale Objekte und mit ihnen verbundene Ressourcen über Uniform Resource Identifier (URIs) global eindeutig identifizierbar sind. Das ist die Voraussetzung, dass sie über eine Verbindung mit Identifikationssystemen (z. B. Ontologien) typisiert, kategorisiert und damit auch von Maschinen „verstanden“ werden können. In gleicher Weise werden die Beziehungen zwischen Ressourcen mit URIs ausgewiesen. Die führenden übergreifenden Standards zur Kodierung von Semantik sind RDF (Resource Description Framework), das die Syntax für Datenaustausch definiert, OWL (Web Ontology Language), eine formale Beschreibungssprache zur Erstellung, Publikation und zum Austausch von Ontologien, und SKOS (Simple Knowledge Organization System), eine formale Sprache zur Kodierung von Dokumentationssprachen wie Thesauri, Klassifikationen oder anderen kontrollierten Vokabularen. Die eingebettete, mit den Daten verbundene Semantik bietet erhebliche Vorteile bei der qualifizierten Auswertung der Daten und dem Umgang mit inhaltlich heterogenen Datenquellen.
Die Grundfunktion von Datenstandards ist es, Informationen durch einheitliche Kodierung oder Gleichmäßigkeit der Beschreibung besser auswertbar zu machen. Ihre Funktionsfähigkeit ist nicht in der Vorgabe begründet, sondern vielmehr im gemeinsamen Gebrauch. Es sind die am weitesten verbreiteten Systeme und Konventionen innerhalb einer Anwendergemeinschaft, die festlegen, welche Arten von Informationen für jedes Informationsobjekt in einer Datensammlung auf welche Weise erfasst werden. Sie sind in der Regel gut dokumentiert, und sie haben aktive Anwendergemeinschaften, die kontinuierlich an ihrer inhaltlichen und technischen Weiterentwicklung und an den Softwaresystemen arbeiten, um sie an die aktuellen und zukünftigen Herausforderungen anzupassen. Ein Beispiel für eine solche Adaption ist das Dokumentenformat Text Encoding Initiative (TEI), das, ausgehend von seinem ursprünglichen Anwendungskontext in spezialisierten Forschungsbibliotheken, heute international in einer Vielzahl fachlich breit ausgerichteter Texteditionsprojekte eingesetzt wird.
Die konsequente Nutzung von Standards ist bei der Erstellung der Metadaten einschließlich ihrer Quellen und Erhebungsbedingungen besonders wichtig. Bei einer maschinellen Nachnutzung der Metadaten ist dies Voraussetzung für ihre Auswertbarkeit. Standards sichern die mittel- und längerfristige Verständlichkeit und Nachnutzbarkeit der Daten ab und ermöglichen, dass Personen mit Daten weiterarbeiten können, die sie nicht selbst erstellt haben. Wenn kaum verbreitete oder schlecht dokumentierte Formate, Schemata oder Modelle verwendet werden oder die Daten in Software eingebettet sind, die proprietär ist oder wegen mangelnder Pflege oder Dokumentation nicht (mehr) zugänglich ist, ist die Verständlichkeit der Daten häufig bereits nach wenigen Jahren selbst für Menschen nicht mehr gewährleistet.
Welche Standards jeweils befolgt werden sollten, hängt von den Gepflogenheiten der Fachdomäne im Umgang mit der jeweiligen Materialart, dem Dokumentationsinteresse des Forschungsprojekts und von der Art der zu erzeugenden Daten ab. Bestandserschließungsprojekte in Kulturerbe-Institutionen orientieren sich in der Regel daran, was in in ihrer Sparte – sei es Bibliothek, Archiv, Museum oder Denkmalpflege – verbreitet verwendet wird. Für Digitalisierungsprojekte in bestandshaltenden Einrichtungen sind die DFG-Praxisregeln „Digitalisierung“ seit vielen Jahren eine weit über die Spartengrenzen und den ursprünglich intendierten Kontext der DFG-Antragstellung hinaus anerkannte und bewährte Good-Practice-Empfehlung zur Qualitätssicherung mit Hilfe von Standards. Sie wurden 2023 in einer
aktualisierten Fassung
vorgelegt.
Mit Blick auf zukünftige Nachnutzungsmöglichkeiten der Forschungsdaten sollten Datenproduzierende aber immer auch Standards sondieren, die in einer Fachdomäne vielleicht noch nicht verbreitet eingesetzt werden, aber der Fragestellung angemessen erscheinen und viel Potential für eine gute Interoperabilität und Wiederverwendbarkeit der Daten haben. Dies gilt insbesondere für die Vokabularstandards.
Die für Forschungsdaten relevanten Datenstandards beziehen sich auf mehrere Geltungsbereiche. Empfehlungen für die von NFDI4Culture vertretenen Fachgebiete finden Sie auf den hier verlinkten Seiten dieser Handreichung.