Culture Knowledge Graph

Der Culture Knowledge Graph ist ein zentrales Bindeglied für alle Datensammlungen, Software-Tools, Infrastrukturen und Dienste innerhalb von NFDI4Culture. Ziel ist es, eine Verbindung zwischen allen erzeugten Forschungsdaten in den Fachgebieten des Konsortiums herzustellen und somit die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von Kulturerbe-Daten innerhalb der 4Culture Domäne zu verbessern. Der Culture Knowledge Graph beschreibt die Ressourcen des Konsortiums entlang einschlägiger W3C-Standards als Linked Open Data unter Verwendung einer domänenspezifischen Ontologie.

Konzepte und Workflows

NFDICO Ontology

Ein wichtiges Anliegen in unserem Aufgabenbereich „Übergreifende technische Aktivitäten“ ist die Bereitstellung von Ontologien, um die Forschungsdaten in NFDI4Culture formal standardisiert zu repräsentieren. Auf Basis einer Umfrage im Jahr 2021, einer genauen Analyse der bereits im Antrag vorgesehenen Beiträge und in kontinuierlichem Austausch mit der Community wurde dazu die NFDICO Ontologie entwickelt. Sie verknüpft Datensätze, Forschungsprojekte, Dienste, Repositorien, Institutionen und Forschungsdisziplinen und dient als Grundlage für den NFDI4Culture Knowledge Graph. Die Klasse nfdico:Contribution repräsentiert Beiträge der Fachgemeinschaften und ordnet die Typen von Beiträgen (z. B. Datenportal, Datensatz, Sammlung, Software, Infrastruktur, Service) ein. Beiträge können beispielsweise durch Medientypen, Lizenzangaben, zugehörige Personen, Institutionen und Projekte genauer beschrieben werden.

Ausschnitt der NFDIO Ontology in Version 1.1, CC BY 4.0, Autor:innen: Sasha Bruhns, Etienne Posthumus, Tabea Tietz, Harald Sack

NFDICO besteht in Version 1.1 aus 36 Klassen und 60 Objektattributen (interaktiver Überblick). Die spezifisch für NFDI4Culture definierten Klassen wurden den „best practices“ in der Ontologieentwicklung folgend zur Sicherstellung hoher semantischer Expressivität und Interoperabilität mit 24 bereits existierenden Ontologien verknüpft, darunter frapo, fabio, void und schema. Die Ontologie ist seit Juni 2022 öffentlich verfügbar, vollständig dokumentiert und in das Culture Information Portal integriert.

Visualisierung der Verteilung von Instanzen bestimmter Klassen im Culture Knowledge Graph, CC BY 4.0, Autor:in: Torsten Schrade

NFDICO stößt in weiteren Konsortien bereits auf Interesse. So wurde die Ontologie von NFDI-MatWerk bereits adaptiert. Hierdurch wurde eine Modularisierung mit domänenspezifischen Erweiterungen angestoßen, in deren Zusammenhang wir bereits über Konzepte und Workflows für einen künftig communitygesteuerten Kuratierungsprozess der Ontologie nachdenken.

Research Information Graph und Research Data Graph

NFDICO bildet die Grundlage für den Culture Knowledge Graph. Eine erste Version des Graphen ist ebenfalls seit Juni 2022 publiziert und kann über einen öffentlichen SPARQL Endpunkt abgefragt werden. Der Knowledge Graph besteht aus zwei Teilen: dem Research Information Graph und dem Research Data Graph. Der Research Information Graph enthält dabei die Forschungsinformationen aus dem Culture Information Portal für alle Projektressourcen, -dienste, -personen und -institutionen, während der Research Data Graph die Integration von Informationen über den spezifischen Inhalt von Forschungsdaten ermöglicht, z. B. Metadaten über Objekte in einer Museumssammlung. Der Workflow zur Integration von Ressourcen in den Research Data Graph umfasst derzeit zwei Komponenten: (1) Wissen aus externen RDF-basierten Ressourcen wird im NFDI4Culture Knowledge Graph über native SPARQL-Föderation zugänglich gemacht. (2) Für die Integration strukturierter Daten, die nicht als Linked Open Data (LOD) veröffentlicht sind, haben wir ein leichtgewichtiges Austauschformat in Entwicklung, mit dem Daten als sogenannte Index-Feeds zum Knowledge Graph beigesteuert werden können.

Verschiedene Möglichkeiten des Daten-Ingests in den Culture Knowledge Graph, CC BY 4.0, Autor:innen: Sasha Bruhns, Etienne Posthumus, Tabea Tietz, Harald Sack

Die Daten im NFDI4Culture Knowledge Graph sind von Anfang an anschlussfähig und können mittels föderierter SPARQL Abfragen erweitert werden. So können z. B. für alle in NFDI4Culture beteiligten Organisationen über die jeweiligen Wikidata-Verknüpfungen zusätzliche Informationen, wie zum Beispiel der Organisationstyp (Bibliotheken, Archive, Universitäten, private Einrichtungen etc.) in die Ergebnisanzeige mit einbezogen werden, obwohl diese Informationen im NFDI4Culture Knowledge Graph nicht explizit enthalten sind.

Culture Graph Interchange Format (CGIF)

Viele Mitwirkende im Kulturbereich stellen Websites oder Online-Datenbanken bereit, dedizierte REST-APIs und SPARQL-Endpunkte sind jedoch selten. Die wenigen vorhandenen APIs bieten oft keine maschineninterpretierbaren Spezifikationen, was ihre Nutzung erschwert. Die Transformation und Zuordnung solcher Datenressourcen zu W3C-Standards wie RDF ist aufwendig und erfordert spezifische Expertise. Aus diesem Grund haben wir im Sommer 2022 mit der Entwicklung des Culture Graph Interchange Formats begonnen, einem leichtgewichtigen Austauschformat zur Extraktion von Ressourcen aus Datensammlungen unter Verwendung von Schlüsselattributen auf Basis von https://schema.org/. CGIF kann direkt in eine Website eingebettet werden, um über eine URL als RDF extrahiert zu werden. Alternativ können Mitwirkende eine Ressource in einem beliebigen RDF-kompatiblen Format einreichen. CGIF soll es am Konsortium beteiligten Personen und Institutionen ermöglichen, ihre Daten auf einfache Art und Weise und ohne die Notwendigkeit der Implementierung komplexer APIs zum Culture Knowledge Graph beizusteuern.

Integration in das Culture Portal

Als beste Lösung zur Gewährleistung der semantischen Expressivität der erfassten Ressourcen und Metadaten mittels NFDICO, bei gleichzeitiger Umsetzbarkeit der benötigten Kurationsmechanismen durch Mitwirkende des Konsortiums, stellte sich die direkte Implementierung der benötigten Funktionalitäten in TYPO3 heraus. Die TYPO3 Extension LOD bietet eine unmittelbar über der relationalen Datenbank des CMS realisierte „Semantische Schicht“ mit einem frei konfigurierbaren IRI-Generator und IRI-Resolver für alle Datensätze sowie einem RDF-Serializer für alle Datenbankinhalte.

Alle im Portal erfassten Ressourcen werden dabei über eine standardisierte LOD API unter Verwendung des Hydra Core Vocabulary in verschiedenen RDF Serialisierungen (z.B. RDFa, Turtle, JSON-LD u.a.) veröffentlicht. Hierdurch können die Daten für den Culture Knowledge Graph bereits jetzt im Kreis der Mitarbeitenden des Konsortiums dezentral kuratiert und kontinuierlich erweitert werden. Die über die LOD API des CMS publizierten Daten werden mittels Ingest-Routinen in den Research Information Graph integriert. Zum Einsatz kommt oxigraph als Triple Store mit einem pythonbasierten Wrapper für ein leichtgewichtiges Deployment des öffentlichen SPARQL-Endpoints, der über ein grafisches Interface wiederum direkt in das Culture Information Portal integriert ist.

Technische Architektur des Portals für den Research Information Graph, CC BY 4.0, Autor:in: Torsten Schrade

Reichweite und Nutzung

Die aktuelle Version des Culture Knowledge Graph enthält Informationen zu 219 Personen und 183 Organisationen im mehr als 100.000 Tiple-Statements. Weiterhin beschrieben werden 229 Ressourcen, darunter z. B. 23 Datenportale und 76 Nachrichtenartikel. Der Knowledge Graph soll eine sich kontinuierlich weiterentwickelnde, öffentlich über Schnittstellen verfügbare Föderationsinfrastruktur für alle Daten, Dienste, Werkzeuge und Ressourcen des Konsortiums darstellen.

Grafik: Interaktive Visualisierung eines Ausschnitts aus dem Research Information Graph (alle Partnerinstitutionen von NFDI4Culture mit ihren Verschiedenen Rollen Co-Applicant, Participant und Supporting Institution), CC BY 4.0, Autor: Torsten Schrade (Daten für Visualisierung)

Ausblick

Im kommenden Jahr werden wir Schwerpunkte auf die Fertigstellung und Publikation des Content Graph Interchange Formats legen und eine neue Version des Culture Knowledge Graph mit ersten, durch Konsortialpartner beigesteuerten Ressourcen im Research Data Graph veröffentlichen. Die bereits generisch angelegte NFDICO Ontologie wollen wir in Absprache mit Domänenexpert:innen iterativ modularisieren und zu einer übergreifenden NFDICORE Ontologie ausbauen. Darüber hinaus wollen wir möglichst viele Partner für eine Integration ihrer Ressourcen in den Knowledge Graph gewinnen und in Zusammenarbeit mit dem Team des Culture Information Portals und der Culture Registry erste Ressourcen aus dem Research Information Graph direkt über das Portal kuratierbar machen.