F1. (Meta-)Daten wird ein global eindeutiger und persistenter Identifikator zugewiesen

Die eindeutige Adressierbarkeit und Lokalisierung von Daten und Metadaten ist eine notwendige Voraussetzung für alle weiteren FAIR-Schritte vom Zugriff bis zur Wiederverwendung. Um auffindbar zu sein, sollte jedes digitale Objekt und jeder Datensatz eindeutig mit einem persistenten Identifikator (PID) versehen sein.

PIDs werden in das weltweit verwendete System zur Identifizierung von Ressourcen im Web, den Uniform Resource Identifier (URI), eingebunden. Global eindeutige, instanziierbare Ressourcenkennungen ermöglichen nicht nur die eindeutige Adressierung von digitalen Objekten, sondern können sich auf alle identifizierbaren, auch auf nicht-digitale Entitäten beziehen: Personen, Organisationen, Dokumente, physische Objekte oder abstrakte Begriffe. Die Verwendung von URIs beseitigt daher auch Uneindeutigkeiten in der Beschreibung von Daten, wenn jeder in den Metadaten genannten Entität ein eindeutiger Identifikator zugewiesen wird.

Einem unikalen physischen Museumsobjekt wie einer Vase kann ein PID zugewiesen werden. Dieser PID kann zu einer Webseite mit der Beschreibung des physischen Objekts führen, er identifiziert aber nicht die Webseite oder eine andere digitale Repräsentation des Objekts (z. B. ein Datensatz oder ein Digitalbild). Letzteren sollen vielmehr eigene PIDs zugewiesen werden. In den digitalen Repräsentationen oder ihren Metadaten wird ein thematischer Bezug zum physischen Objekt hergestellt, der dessen PID einschließt.

In diesem Zusammenhang bestehen Identifikatoren aus einem Internet-Link, der zu einer Webseite führt, die das Informationsobjekt definiert, wie z. B. einen Forschungsdatensatz, ein bestimmtes Sachschlagwort, eine Person, ein Geografikum. Identifikatoren können anderen Menschen helfen, genau zu verstehen, was Sie meinen, und sie ermöglichen es maschinellen Agenten, Ihre Daten bei der Suche oder automatischen Integration auf sinnvolle Weise zu interpretieren. Identifikatoren sind für die Zusammenarbeit zwischen Mensch und Maschine unerlässlich. Darüber hinaus helfen Identifikatoren anderen, Ihre Arbeit bei der Wiederverwendung Ihrer Daten korrekt zu zitieren.

Ein persistenter Identifikator muss weltweit eindeutig sein – jemand anderes kann den selben Identifikator nicht wiederverwenden oder neu zuweisen, ohne sich auf Ihre Daten zu beziehen. Global eindeutige Bezeichner werden von Registrierungsdiensten vergeben, deren Algorithmen die Eindeutigkeit neu geprägter Identifikatoren garantieren.

Persistente Identifikatoren müssen dauerhaft gültig sein. Das gilt auch dann, wenn sich die Webadresse (URL) einer Ressource ändert. Die Registrierungsdienste garantieren die Auflösbarkeit dieses Links auch in Zukunft, zumindest bis zu einem bestimmten Grad. Es kostet Zeit und Geld, Weblinks aktiv zu halten. Daher müssen teilnehmende Institutionen sich für eine in der Regel kostenpflichtige Mitgliedschaft registrieren. Registrierungsdienste fungieren als zentrale Vergabestellen, welche den teilnehmenden Einrichtungen eindeutige Präfixe für „ihre“ PIDs zuweisen. Viele dieser Datenplattformen erzeugen automatisch weltweit eindeutige und dauerhafte Identifikatoren für die bei ihnen hinterlegten Datensätze.

Anbieter von PIDs sollten eine klare Richtlinie veröffentlichen, die beschreibt, zu welchen Konditionen die dauerhafte Auflösung des Identifikators zum richtigen Speicherort und zum richtigen Informationsobjekt garantiert wird. Es liegt auf der Hand, dass lokal verwendete Identifikatoren (beispielsweise die automatisch vergebenen Datensatz-IDs innerhalb einer lokalen Datenbank), die nicht automatisch auf gemeinschaftlich getragene und öffentlich geteilte Identifikationssysteme referenziert werden können, nicht persistent sind. Ein Datenanbieter, der ein „proprietäres“ Identifizierungsschema wählt, muss daher geeignete und korrekte Zuordnungen zu öffentlichen Identifizierungsschemata bereitstellen, um als FAIR zu gelten.

PID-Systeme

PIDs werden im Rahmen verschiedener Identifikationssysteme angeboten.

Digital Object Identifier (DOI)

DOI kombiniert ein Metadatenmodell mit dem Handle-System (siehe unten) als Auflösungsinfrastruktur (d. h. DOIs sind Handles). Das System wurde mit Unterstützung der International DOI Foundation (IDF) eingeführt und wurde 2012 zur offiziellen ISO-Norm (ISO 26324). Das DOI-System baut auf CNRI-Handles auf. DOI-Registrierungsagenturen sind für die Zuweisung von Identifikatoren verantwortlich. Sie haben jeweils ihr eigenes kommerzielles oder nicht-kommerzielles Geschäftsmodell, um die damit verbundenen Kosten zu tragen. Das DOI-System selbst wird von der IDF gepflegt und weiterentwickelt, die ihrerseits von den Mitgliedern der Registrierungsagenturen kontrolliert wird. Unter dem Handle-System gibt es einen zentralen, kostenlosen und weltweiten Auflösungsmechanismus für DOI-Namen. DOI-Namen von jeder Registrierungsagentur können weltweit in jedem Handle-Server aufgelöst werden; DOIs sind also eigenständig und ihre Auflösung ist nicht von einer einzelnen Agentur abhängig. Für jeden DOI-Namen wird ein Standard-Metadaten-Kernel definiert. Für die Vergabe von DOI-Namen ist eine Lizenzgebühr zu entrichten, ihre Auflösung ist jedoch kostenlos.

Das DOI-System ist im wissenschaftlichen Publikationsprozess weit verbreitet.

Uniform Resource Name (URN)

URN ist ein Standard der Internet Engineering Task Force (IETF). Es gibt keine zentrale Verwaltung oder Resolver-Infrastruktur. Große Nationalbibliotheken in Europa haben ihre eigene Untergruppe von URN, die URN:NBN, gegründet und betreiben eine gemeinsame Infrastruktur für die Namensauflösung. Internationale Standard Buch Nummern (ISBN) für Bücher sind Teil des URN-Systems.
Es fallen keine Lizenzkosten für die Vergabe von URNs an, aber eine URN-Registrierungsagentur muss eine Infrastruktur für die Vergabe und die Auflösung einrichten. Da keine gemeinsame Auflösungsinfrastruktur oder Arbeitsabläufe für URNs existieren, abgesehen von Teilbereichen wie URN:NBN, ist es unmöglich, eine generelle Interoperabilität mit URNs herzustellen.
Der URN-Service der Deutschen Nationalbibliothek für öffentliche Institutionen ist an bestimmte Bedingungen geknüpft, aber kostenlos.

Handle

Handle ist ein nichtkommerzielles dezentrales System zur Auflösung von Identifikatoren, das von der Corporation for National Research Initiatives (CNRI) betrieben wird. Es wird von vielen anderen übergeordneten Systemen verwendet, z. B. DOI. Verschiedene Initiativen verwenden kommerzielle Handle-Lizenzen, um lokale Handle-Systeme einzurichten, so das European Persistent Identifier Consortium (EPIC). Viele Repositorien betreiben derzeit ihr eigenes lokales Handle-System.

Archival Resource Key (ARK)

ARK ist kein formaler Standard, aber alle ARKs folgen der gleichen Struktur und den gleichen Arbeitsabläufen. Es gibt keinen zentralen Resolver (Verzeichnisdienst zur Namensauflösung) – Organisationen können sich anmelden, um Name Assigning Authority Numbers (NAANs) zu werden und ihre eigene Infrastruktur für die Auflösung von ARKs zu betreiben. Das System wird von der California Digital Library mit Dutzenden von NAANs weltweit über eine kombinierte ARK/DOI-Infrastruktur EZID betrieben. Diese EZID Infrastruktur ermöglicht die Interoperabilität zwischen ARKs und DOI-Namen unter dem Dach von DataCite. Im deutschen Sprachraum spielt ARK eine untergeordnete Rolle.

Persistent Uniform Resource Locator (PURL)

PURLs sind Webadressen, die angesichts einer dynamischen und sich verändernden Webinfrastruktur als dauerhafte Identifikatoren fungieren. Anstatt direkt auf Webressourcen zu verweisen, verweisen PURLs über einen zwischengeschalteten Resolver auf den tatsächlichen Standort der angeforderten Webressource. Diese Funktion gewährleistet die Kontinuität der Adressierung der Ressourcen, die von Server zu Server transferiert werden können, ohne dass dies negative Auswirkungen auf die Systeme hat, die von ihnen abhängen.
Nach langer Trägerschaft durch OCLC hat das Internet Archive 2016 die Verwaltung des PURL-Dienstes übernommen. PURL-Server werden von verschiedenen Organisationen betrieben. Eine formelle Mitgliedschaft ist notwendig. Der Quellcode steht frei zur Verfügung.

Die Rolle der Datenproduzierenden

Nutzen Sie PIDs für die in den Daten behandelten oder erwähnten Entitäten, dies verbessert ihre Auffindbarkeit und Nachnutzbarkeit deutlich. Differenzieren Sie sorgfältig zwischen PIDs, die sich auf physische und auf digitale Objekte beziehen.

Publizieren Sie auf einer Plattform, die Ihren Daten PIDs zuweist. Klären Sie mit Ihrer Datenplattform, ob eine digitale Ressource, die in unterschiedlichen Formaten publiziert werden soll, separate PIDs benötigt. Bestimmen Sie, mit welcher Granularität die zu veröffentlichenden Elemente Ihrer Forschungsdaten über PIDs separat adressierbar sein sollen.
Benötigen Daten eine größere Menge an PIDs, wie es bei Museums- oder Archivbeständen der Fall sein kann, kann es notwendig werden, selbst Mitglied der PID-Anbieterorganisation zu werden oder eine Partnerorganisation zu finden, die PIDs vergeben kann. Die Zuweisung von PIDs kann mit Kosten verbunden sein. Eine Bedingung ist häufig, dass Datenpakete nach ihrer Einlieferung nur noch in (meist rechtlich begründeten) Ausnahmefällen verändert werden dürfen. Kontinuierlich weiterentwickelte Metadaten zu Sammlungsbeständen benötigen eigentlich eine Versionierung der PIDs und damit auch der zitierbar vorgehaltenen Stände der zugehörigen Daten. Einfacher umsetzbar ist diese Anforderung für die qualitativ hochwertigen Digitalisate der Sammlungsbestände. Beispielhaft ist dies beim Bildarchiv der ETH-Zürich realisiert, das bislang über 770.000 digitale Objekte seines Bestands mit DOIs ausgestattet hat.

Verweisen Sie in Ihren Forschungsergebnissen auf den PID, der Ihrem Datensatz zugewiesen wurde. Verweisen Sie auch auf PIDs von Datensätzen anderer, die Sie verwendet haben und verwenden Sie PIDs zur Referenzierung der Entitäten, auf die sich Ihre Metadaten beziehen. Mehr Informationen dazu im Abschnitt I3. (Meta-)Daten enthalten qualifizierte Verweise auf andere (Meta-)Daten.

Die Rolle des Betreibenden der Datenplattform

Wählen Sie die geeignete Form eines dauerhaften Identifikationssystems und weisen Sie jeder Ressource einen PID zu. Machen Sie die Richtlinien für den Umgang mit dem Identifizierungsschema öffentlich zugänglich, wie es z. B. Zenodo tut.

Weiterführende Informationen zu PIDs

THOR – Technical and Human Infrastructure for Open Research. Persistent Identifier Platform

Koster, Lukas: Persistent identifiers for heritage objects. Code4Lib Journal, 47, 2020

Arnold, Eckart / Müller, Stefan: Wie permanent sind Permalinks? Informationspraxis Bd. 3 Nr. 1, 2017

PIDs für Sammlungsobjekte: Teilprojekt HeritagePIDs des britischen Programms Towards a National Collection (TaNC)

Forschungsdaten zitieren

Wenn Forschungsdaten einen dauerhaften Identifikator haben und in Übereinstimmung mit den Community-Standards zitiert werden, sind die entsprechenden digitalen Objekte oder Datensätze leichter zu finden.

Die Rolle der Datenproduzierenden

Machen Sie sich mit den Zitierrichtlinien für Daten vertraut, die für Ihre Institution oder Ihr Publikationsorgan gelten, und zitieren Sie Forschungsdaten entsprechend. Dies gilt auch für publizierte und über PIDs zitierbare Ressourcen (z. B. digitalisierte Sammlungsbestände), Normdaten und Vokabulare, die in Ihren Daten gegenständlich sind.

Die Rolle des Betreibenden der Datenplattform

Informieren Sie Ihre Nutzer:innen in geeigneter, gut auffindbarer Form über bewährte Praktiken beim Zitieren von Daten. Erleichtern Sie ihnen die Ausführung, z. B. durch eine standardisierte Schaltfläche auf der Webseite mit der Aufschrift „Diesen Datensatz zitieren“, die das Zitat in verbreiteten Zitierstilen vorformatiert anbietet.

Empfehlungen für eine gute Praxis rund um zitierfähige Datenpublikationen

Data Citation Synthesis Group: Joint Declaration of Data Citation Principles, Martone, M. (Hg.), FORCE11, 2014

Murdoch University Library: Chicago Referencing Guide, 2022

Dataverse Project: Best Practices. Data Citation

Persistente Identifikatoren für Personen und Institutionen verwenden

Nutzen Sie dauerhafte Identifkatoren für Personen und Forschungsorganisationen und -institutionen, z. B. Open Researcher and Contributor ID (ORCID), International Standard Name Identifier (ISNI), Gemeinsame Normdatei (GND) oder Virtual International Authority File (VIAF), für Institutionen auch Research Organization Registry (ROR). Kennzeichnen Sie die Beiträge aller Projekt-Teammitglieder, die verantwortlich benannt werden sollen, sei es als Autor:innen, als Beitragende oder zur Angabe ihrer Institutitionszugehörigkeit (Affiliation). Wissenschaftler:innen unterstützen damit die Darstellung ihrer eigenen Forschungsleistung. Die Autor:innenidentifikation ermöglicht die Wiedererkennung und Auffindbarkeit von Personen und Institutionen. Sie hilft auch, Verknüpfungen zwischen Datensätzen, Forschungsaktivitäten, Veröffentlichungen und Forschenden herzustellen.

Die Rolle der Datenproduzierenden

Unterscheiden Sie sich von gleichnamigen Forschenden oder Forschungsgruppen. Beantragen Sie eine Autor:innenkennung, wenn Sie noch keine besitzen. Registrieren Sie sich z. B. bei ORCID und verweisen Sie auf Ihre ORCID-ID in Ihrem Datensatz und an anderen Stellen, die Ihnen für die Zusammenführung forschungsrelevanter Informationen geeignet erscheinen.
Prüfen Sie auch, ob Ihre Institution bei ROR registriert ist und verwenden Sie in diesem Fall den entsprechenden Identifikator.

Die Rolle des Betreibenden der Datenplattform

Zeigen Sie vorhandene Identifikatoren für Autor:innen und Institutionen mit den Metadaten an und erlauben Sie nach Möglichkeit eine Verlinkung zu den dahinter liegenden Profilen. Um komplexe Rollen rund um Autor:innenschaft, Mitarbeit und Verantwortlichkeiten transparenter auszuweisen, ermöglichen Sie die Zuweisung von Rollenbezeichnungen.

Weitere Informationen zu Identifikatoren für Personen und Rollenbezeichnungen

Hagemann-Wilholt, Stephanie / Burger, Marleen / Dreyer, Britta et al.: Autor:innenidentifikation mit der ORCID iD: Warum und für wen?, in: ORCID in Deutschland – Blog, 2022

Beispiel für die Nutzung der ORCID in Nachweissystemen: GEPRIS; Digital Humanities Lab (Leibniz-Institut für Europäische Geschichte)

Beispiel für die Verlinkung zu den ORCID-Profilen der Autorinnen in einem Repositorium: Zenodo

Rollenzuweisungen ermöglichen z. B. die Contributor Types im DataCite Metadata Schema v.4.4, Appendix 1, S. 40