Feedback geben

3. Kompatible Datenformate und Methoden zur Datenbereitstellung

Das folgende Kapitel gibt einen Überblick über die Datenformate und Bereitstellungsmethoden, die die Ingest-Pipeline derzeit „versteht“. Routinen zur Erstellung und Integration von Data Feeds in den Culture Knowledge Graph wurden von Mitgliedern der NFDI4Culture-Community zusammen mit dem Culture Knowledge Graph-Team entwickelt. Darüber hinaus werden in Kapitel 4 weitere Formate und Methoden zur Datenbereitstellung aufgeführt, für die solche Routinen in der Entwicklung sind, aber noch nicht veröffentlicht wurden.

Datenformate

NFDIcore/CTO

Metadaten zu digitalen Repräsentationen und zugehörige Forschungsdaten des materiellen und immateriellen Kulturerbes können im RDF-Format bereitgestellt werden, unter Verwendung der NFDIcore Ontology und insbesondere des NFDI4Culture Ontology-Moduls (CTO). Dies ist das Zielformat, das innerhalb des Culture Knowledge Graph verwendet wird. RDF kann in verschiedenen Serialisierungsformaten bereitgestellt werden, z. B. N-Triples, Turtle oder RDF/XML.

Beispiel: Data Feed der Metadaten zu Briefen aus der Gregorovius-Edition am DHI Rom (Edition, API)
Integrationsroutine: direkte Integration

Weitere Informationen zu den Ontologien

CGIF/schema.org

Das Culture Graph Interchange Format (CGIF) ist eine kleine Teilmenge von schema.org. Es ist nicht so funktionsreich wie die im Culture Knowledge Graph verwendete Zielontologie, kann aber ein einfacheres Ziel für die Bereitstellung oder Konvertierung Ihrer Daten sein. CGIF-kompatible Daten können in reguläre Websites eingebettet werden, um regelmäßige Abfragen zu vereinfachen und gleichzeitig die Suchmaschinenoptimierung (SEO) Ihrer Website zu verbessern, da schema.org-Markup von vielen großen Suchmaschinen verwendet wird, um Website-Inhalte zu verstehen und sie entsprechend zu indizieren.

Beispiel: Beispielbild des deutschen Corpus Vitrearum (siehe Seitenquelltext)
Integrationsroutine: Hydra Scraper

Weitere Informationen zu CGIF

LIDO XML

Lightweight Information Describing Objects (LIDO) ist ein in den NFDI4Culture Communities etablierter XML-Standard. LIDO-Dateien beschreiben einzelne Museums- oder Sammlungsobjekte oder Objektgruppen. Die größte Herausforderung bei der Umwandlung dieses Formats für den Culture Knowledge Graph ist die Extraktion von IRIs, da dies keine LIDO-Anforderung ist, insbesondere im Fall des recordInfoLink zur Identifizierung des Objekts.

Beispiel: LIDO-Beispiel der Fontana del Moro
Integrationsroutine: Hydra Scraper

Weitere Informationen zu LIDO

Methoden zur Datenbereitstellung

Abrufbarer Daten-Dump

Eine einfache Möglichkeit, Ihre Daten zur Verfügung zu stellen, besteht darin, sie als Daten-Dump in einem der unterstützten Datenformate (siehe oben) zu übermitteln. Anstatt jede Datei einzeln zur Verfügung zu stellen, können diese Daten-Dumps als einzelne Dateien in Dateiformaten wie JSON oder in einem ZIP-Archiv im Internet verfügbar gemacht werden. ZIP-Dateien/Daten-Dumps können in regelmäßigen Abständen neu abgerufen und ihr Inhalt neu integriert werden. Auf diese Weise können Sie Ihre ZIP-Dateien/Daten-Dumps eigenständig immer dann neu erstellen, wenn sich Ihre Daten ändern (oder wenn Ihr Server nicht stark belastet wird). Wenn Sie einen Speicherort für Ihren Datendump benötigen, wenden Sie sich bitte an den NFDI4Culture Helpdesk.

Beispiel: Metadatensatz des Data Feeds des Detmolder Hoftheaters mit Link zum Daten-Dump
Integrationsroutine: direkte Integration (für RDF Daten), Hydra Scraper (für ZIP-Dateien)

Weitere Informationen zu Daten-Dumps

SPARQL-Endpunkt

Wenn Ihre Daten über einen SPARQL-Endpunkt verfügbar sind, können Sie sogenannte CONSTRUCT Queries implementieren, um die Entitäten und Eigenschaften in Ihrem Graphen mit denen zu mappen, die von der NFDIcore/CTO Ontology benötigt werden. Abhängig von der Komplexität der Abfrage und der Datenmenge kann der Harvesting-Prozess jedoch einfacher sein und Ihren Server weniger belasten, wenn Sie die Abfrage in einer lokalen Umgebung ausführen und dem Culture Knowledge Graph Team einen Link zu einem (regelmäßig aktualisierten) Daten-Dump wie oben beschrieben zur Verfügung stellen.

Beispiel: FactGrid
Integrationsroutine: CONSTRUCT Query erzeugt durch den Datengebenden

Weitere Informationen zu SPARQL

Eingebettete Metadaten (CGIF/schema.org)

Das Culture Graph Interchange Format (CGIF) ist ein leichtgewichtiges Datenaustauschformat, das auf schema.org basiert. Es enthält eine Option zur Bereitstellung von Daten eines gesamten Feeds, einschließlich Paginierung. Dies ermöglicht ein zuverlässiges und schnelles Harvesting, ohne einen Server zu belasten: Wenn Ihre Website über eine Listenansicht aller Feed-Elemente verfügt, kann das Hinzufügen des erforderlichen Markups zum Template eine sehr einfache Möglichkeit sein, Forschungsdaten für den Culture Knowledge Graph verfügbar zu machen. Alternativ dazu kann CGIF/schema.org auch über dezidierte APIs bereitgestellt werden.

Beispiel: Bildarchiv des deutschen Corpus Vitrearum (eingebettet in den Quelltext), fotografische Sammlung der Bibliotheca Hertziana (dezidierte API)
Integrationsroutine: Hydra Scraper

Weitere Informationen zu CGIF

Liste von URLs

Ein weiterer Ausgangspunkt für das Harvesting Ihrer Daten kann eine einfache Textdatei sein, die die URLs der Dateien enthält, die umgewandelt und integriert werden sollen. Dies kann nützlich sein, wenn Sie z. B. einzelne Feed-Element-Dateien haben, aber keine API oder kein ZIP-Dienstprogramm, um sie miteinander zu verbinden. Die Liste der URLs kann theoretisch dem Beacon-Format ähneln, sollte sich aber auf die Auflistung aller Ressourcen konzentrieren, die übernommen werden sollen, und nicht auf Links zu einer einzelnen Normdatei.

Beispiel: ausstehend
Integrationsroutine: Hydra Scraper

Weitere Informationen zu BEACON

Über einen Aggregator (DDB)

Wenn Sie Ihre Forschungsdaten bereits an einen Aggregator weitergegeben haben, besteht eine weitere Havestingroutine darin, die aggregierten Daten von dort abzurufen. Eine bestehende Routine arbeitet mit den in der Deutschen Digitalen Bibliothek (DDB) gespeicherten Daten und erfordert lediglich die Kenntnis Ihrer Anbieterkennung (ID) bei der DDB. Das Harvesting dieser Varianten Ihrer Daten sollte jedoch nur dann Ihre erste Wahl sein, wenn Sie von der Aktualität, Vollständigkeit und Qualität der Daten überzeugt sind.

Beispiel: ausstehend
Integrationsroutine: noch nicht veröffentlicht

Weitere Informationen zur DDB

Über dedizierte APIs

Wenn Ihre Daten über eine eigene REST-API verfügbar sind, bieten folgende Routine nützliche Anregungen zur Erzeugung von RDF-Daten gemäß NFDIcore/CTO. Diese sind entsprechend ihrer Ausgangsdaten zu adaptieren:

Beispiel: RISM Online, Gregorovius Briefedition, Musiconn.performance
Integrationsroutine: RISM Online (Python Harvester), Gregorovius Briefedition (Jupyter Notebook), Musiconn.performance (Python Harvester)

Weitere Informationen zu APIs

Wikipedia: APIs