Falls Ihre Daten in einem Format vorliegen, das im vorherigen Kapitel nicht aufgeführt wurde, lädt das Team des Culture Knowledge Graph dazu ein, gemeinsam neue Transformationsroutinen zu entwickeln. Entsprechende Werkzeuge werden bereitgestellt. Die nachstehende Liste gibt einen Einblick in Communitystandards, für die bereits an der Entwicklung von Routinen gearbeitet wird. Zu beachten ist, dass XML-Formate wie MEI und TEI bereits integriert werden können, wenn sie über Dienste wie XTriples in NFDIcore/CTO konvertiert werden.
Die Music Encoding Initiative (MEI) ist ein von der musikwissenschaftlichen Community vorangetriebenes Framework für musikwissenschaftliche Daten. Viele entsprechende Datenportale bieten bereits MEI/XML an. Die größten Herausforderungen bei der automatisierten Umwandlung sind das Abrufen und Umformen von Incipit-Daten (sofern verfügbar) und das Abrufen der vollständigen IRIs von Normdaten, ohne dass zusätzliche Look-up-Dateien geparst werden müssten, die nicht automatisch auffindbar sind.
In den Geisteswissenschaften sind XML-Dateien, die gemäß der Text Encoding Initiative (TEI) strukturiert sind, oft in textzentrierten Editionen zu finden. Wie bei MEI besteht die größte Herausforderung bei der automatisierten Abfrage dieser Daten darin, dass in der Regel vollständige IRIs über zusätzliche Look-up-Dateien bereitgestellt werden, die nicht automatisch auffindbar sind. Darüber hinaus bietet TEI/XML oft mehrere Möglichkeiten zur Aufnahme spezifischer Metadaten.
Die MARC-Standards (MAchine-Readable Cataloging) werden häufig in Bibliothekskatalogen und Repositorien zur Beschreibung von Ressourcen verwendet. MARCXML definiert eine XML-Serialisierung von MARC 21-Daten für die Verwendung im Web. Die größte Herausforderung bei der Nutzung dieses Formats für den Culture Knowledge Graph besteht darin, Normdaten abzurufen, die in der Regel als lose standardisierte ID anstelle einer IRI bereitgestellt werden. Darüber hinaus nutzen einige Bibliotheksdatenbanksysteme kombinierte Freitextfelder anstelle von sauber getrennten Daten.
Encoded Archival Description (EAD) ist ein XML-Format, das häufig für die Zusammenstellung von Archivdaten verwendet wird. Ähnlich wie bei MARCXML kann das Extrahieren von Normdaten ohne IRIs bei diesem Format problematisch sein. Darüber hinaus enthält EAD eine Reihe von Datumsfeldern, die nicht den ISO-Formaten entsprechen und möglicherweise nicht immer geparst werden können.
Das Correspondence Metadata Interchange Format (CMIF) bietet Informationen über Briefe und andere Korrespondenzen unter Verwendung einer Teilmenge von TEI/XML. Viele deutsche Briefeditionen aggregieren diese Indexdateien mit dem Community-Dienst correspSearch. Eine zentrale Herausforderung bei der automatisierten CMIF-Transformation besteht darin, einen Link zum TEI/XML des annotierten Briefes zu erhalten, falls nicht alle relevanten Informationen in der CMIF-Datei selbst stehen.
Das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) ist eine standardisierte API, die häufig von Bibliotheks- und Archivsoftware bereitgestellt wird. Die API funktioniert gut in Kombination mit verschiedenen XML-Formaten, die direkt in die Responses eines API-Endpunkts aufgenommen werden können. Aufgrund der Flexibilität von OAI-PMH besteht eine zentrale Herausforderung beim Harvesting für den Culture Knowledge Graph darin, Daten in einem transformierbaren Format zu erhalten oder URLs zu identifizieren, die zu einer solchen Serialisierung führen.