I2. (Meta-)Daten enthalten Vokabulare, welche den FAIR-Prinzipien folgen

Offene, gut definierte Vokabulare verwenden

Grundlegend für Wissensorganisationssysteme sind Begriffe. Sie sind als „Einheiten des Denkens“ aufzufassen – Ideen, Bedeutungen oder (Kategorien von) Objekten und Ereignissen. Als solche existieren Begriffe im Bewusstsein als abstrakte Einheiten, die unabhängig von den Bezeichnungen sind, mit denen sie benannt werden.

Kontrollierte Vokabulare sind Systeme zur Organisation von Wissen, die eine strukturierte Menge von Begriffen zur Organisation und Klassifizierung von Daten enthalten, um den späteren Zugriff auf sie und die Suche nach ihnen zu gewährleisten. Bei den Begriffen handelt es sich um Datendeskriptoren, die über explizite Beziehungen (hierarchisch oder assoziativ) miteinander verbunden sind. Diese Deskriptoren werden zur Unterscheidung und Definition der Merkmale von Wissensressourcen in einem bestimmten Bereich verwendet. Sie enthalten die Datenwerte für Allgemeinbegriffe, Individualnamen und andere Werte, die zur strukturierten Beschreibung von Daten notwendig sind.
Mit Hilfe von kontrollierten Vokabularen können die Ressourcen befragt, durchsucht, analysiert und mit anderen relevanten Informationsobjekten verknüpft werden.

Die gebräuchlichsten Arten kontrollierter Vokabulare sind:

  • Thesaurus – eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Erschließen, Speichern und Wiederauffinden eines Sachverhalts dient
  • Klassifikation – ein System, das in erster Linie auf der Klassifizierung von Dingen oder Konzepten in Gruppen oder Klassen basiert, mit einer detaillierten Erläuterung dieser Klassifizierungsmethoden
  • Anwendungsontologie – ein Klassifikationssystem für Daten, um diese maschineninterpretierbar einzuordnen und zu repräsentieren. Eine formal geordnete Darstellung einer Menge von Begriffen und der zwischen ihnen bestehenden Beziehungen in einem bestimmten Gegenstandsbereich, die von einem Referenzmodell abgeleitet sein kann.
  • Schlagwortliste – eine Liste von Begriffen zur Beschreibung von Themen in einem Informationssystem
  • Taxonomie – ein System, das Dinge und Begriffe auf der Grundlage ihrer gemeinsamen Merkmale und/oder Unterschiede in Gruppen organisiert
  • Wortliste – eine Liste von Bezeichnungen, die zur Beschreibung von Begriffen in einem bestimmten Bereich verwendet werden
  • Glossar – eine alphabetische Liste von Begriffen mit ihren Erklärungen, die in einem bestimmten Kontext verwendet werden
  • Normdaten – Datenbestand, der einzelne Entitäten (Instanzen bestimmter Klassen), wie z. B. Personen, Körperschaften, Geografika und Werke soweit beschreibt, dass sie eindeutig identifizierbar und referenzierbar sind

Die ausgewählten Vokabulare sollen PIDs für ihre Entitäten aufweisen und zugänglich, interoperabel und sorgfältig dokumentiert, daher selbst FAIR sein. Verwenden Sie offen lizenzierte, gut ausgearbeitete und publizierte Vokabulare, die in der Fachcommunity allgemein anerkannt sind. Die Einbeziehung oder Hinterlegung solcher Vokabulare sichert die genauen Bedeutungen der Konzepte und Eigenschaften ab, die in den Daten vertreten sind.

Hier finden Sie Empfehlungen für Vokabulare, Normdaten und Anwendungsontologien im Bereich der Kulturwissenschaften und des Kulturerbes.

Die Rolle der Datenproduzierenden

Verwenden Sie Vokabulare, die für Ihr Fachgebiet relevant sind, und ergänzen und strukturieren Sie Ihre Forschungsergebnisse von Beginn Ihres Projekts an entsprechend. Integrieren Sie neben den sprachlichen Bezeichnungen immer auch die PIDs der Begriffe in Ihre Daten, um Eindeutigkeit auch bei einer maschinellen Auswertung der Daten zu gewährleisten und die Nutzung im Kontext von Linked-Data-Anwendungen zu ermöglichen.

Nicht selten ist die Verwendung von in der Community verbreiteten und veröffentlichten Vokabularen nur teilweise möglich, weil Begriffe benötigt werden, die noch nicht in einem der oder dem Forschenden bekannten publizierten Vokabular oder einer Ontologie abgedeckt sind. Beispiele sind unzureichende Angebote für Objekte oder Bildinhalte nicht-europäischer Kulturen oder das Fehlen von spezifischen Fachbegriffen, z. B. für historische Glasverarbeitungstechniken im Art and Architecture Thesaurus. Die GND und die Getty-Vokabulare bieten ihren Anwendergemeinschaften Möglichkeiten zur Ergänzung des Vokabulars gemäß ihrer redaktionellen Regeln an.
Man kann auch ein projektspezifisches Vokabular erstellen und es offen lizenziert veröffentlichen, vorzugsweise als Linked Open Data in maschinenauswertbarer Form. Nutzen Sie hierfür spezielle Werkzeuge zur Thesauruserstellung und zur Publikation, z. B. VocBench (open source), ACDH Vocabs Editor (MIT License), xTree oder Vokabularmodule von Sammlungsmanagement-Software, oder auch den Editor Protégé zur Modellierung von Ontologien. Die Publikation des Vokabulars kann z. B. mit Skosmos erfolgen, ein offen lizensierter webbasierter SKOS-Browser.

Das selbsterstellte Vokabular sollte sich in der Strukturierung so weit wie möglich an einem publizierten Vokabular orientieren und als dessen lokale Erweiterung konzipiert werden.

Das Vokabular oder die Ontologie, die für ein bestimmtes Datenfeld gilt, sollte eindeutig spezifiziert werden. Auch für Felder, auf die das nicht zutrifft, sollte der Wertetyp des Feldes mit Hilfe eines öffentlich zugänglichen Vokabulars oder einer Ontologie in den Metadaten des digitalen Objekts eindeutig angegeben werden.

Die Rolle des Betreibenden der Datenplattform

Nennen Sie Beispiele für Vokabulare, die die von Ihnen vertretenen Fachcommunities verwenden können und die über die Schnittstellen der Plattform adressierbar sind.
Ermöglichen Sie, wo immer möglich, die Verwendung weit verbreiteter Normdaten bzw. Identifikationssysteme, z. B. Normdaten für Personen (ORCID), Institutionen (ROR), Förderorganisationen (Crossref Funder Registry), DFG-Fachsystematik, GND etc.
Stellen Sie sicher, dass in den Metadaten die entsprechenden Attribute gespeichert werden, so dass Eindeutigkeit und maschinelle Auswertbarkeit auch hier gewährleistet sind.

Weitere Informationen zu FAIRen Vokabularen

Hugo, Wim / Le Franc, Yann / Coen, Gerard / Parland-von Essen, Jessica / Bonino, Luiz: D2.5 FAIR Semantics Recommendations Second Iteration (1.0), 2020

Weitere Informationen zur Mitarbeit an Referenzvokabularen

Gemeinsame Normdatei

Getty-Vokabulare

Beispiel: Erstellung eines projektspezifischen Vokabulars mit LOD-Publikation

Projekt “Digitalisierung Gandharischer Artefakte (DiGA)": Elwert, Frederik / Pons, Jessie: Brücken bauen für Buddha - Das Projekt "Digitalisierung Gandharischer Artefakte" (DiGA) und die Pelagios Working Group "Linked Data Methodologies in Gandharan Buddhist Art and Texts", in: DHd 2022 Kulturen des digitalen Gedächtnisses. 8. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" (DHd 2022), Potsdam, 7. März 2022

Amato, Antonio / Elwert, Frederik / Pons, Jessie: Digitization of Gandharan Artefacts: A Project for the Preservation and the Study of the Buddhist Art of Pakistan. A Digitization Concept, 2022

DiGA Thesaurus auf Github und bei Skosmos