Dateiformate für die Langzeitarchivierung

Die meisten Langzeitarchive haben bei der Einlieferung keine Formatbeschränkung. Die Prüfung und Auswahl von Formaten einzuliefernder Materialien ist vorrangig für die →Formatmigration entscheidend. Hier muss auf die Verwendung archivfähiger Formate geachtet werden, um die Erhaltung der Nutzbarkeit noch Jahrzehnte später zu gewährleisten. Für andere Erhaltungsmaßnahmen sind die Datenformate weniger wichtig. Fällt die Entscheidung bspw. im Kontext von komplexen Objekten auf eine →Emulation (den Prozess des Nachahmens eines Computersystems durch ein anderes), existieren bisher kaum archivfähige Formate und Standards.

Die Festlegung auf Dateiformate für die Langzeitarchivierung sollte bereits vor Projektanfang bedacht werden. Die Auswahl der Formate sollte auch im →Datenmanagementplan berücksichtigt werden.

In Forschungsprojekten ist es nicht unüblich, Forschungsdaten in verschiedenen Formaten zu sichern, beispielsweise einer archivfähigen Masterkopie und einem Derivat für die Online-Präsentation. Bei der Archivierung werden beide Dateiformate eingeliefert.

Empfohlene Dateiformate für die digitale Langzeitarchivierung

Es folgt eine kurze Übersicht an Dateiformaten, die allgemein für die digitale Langzeitarchivierung mit Formatmigration empfohlen werden. Alle fett dargestellten Formate werden dabei für die Langzeitarchivierung präferiert, alle nicht fett dargestellten Formate hingegen akzeptiert. Da alle Formate dem Alterungsprozess unterliegen, können sich in der Zukunft Änderungen ergeben.

Die Prüfung und Auswahl von Formaten für die digitale Langzeitarchivierung sollte immer eine Schlussfolgerung der →Identifizierung erhaltenswerter Eigenschaften sein.

Anwendungs-
bereich
Empfohlene Archivformate
Rasterbilder Unkomprimiertes Baseline-TIFF (ab Version 6.0), GeoTIFF
Vektorbilder Unkomprimiertes SVG
CAD-Modelle IFC, STP, DXF. Wenn funktional nicht ausreichend, dann DWG mit älterer Version 2010 (AC1024)
3D-Modelle Für Punktwolken: E57. Sonst: glTF, DAE, OBJ. Wenn funktional nicht ausreichend, dann X3D
Text PDF/A-2, PDF/A-1 (aber keine anderen PDF-Varianten), ODT, DOCX (aber nicht DOC), TXT mit UTF-8 ohne BOM-Kodierung
Strukturierte Texte XML mit DTD-Datei oder XML-Schema, JSON, HTML
Tabellen CSV mit UTF-8 ohne BOM-Kodierung, ODS, XLSX (aber nicht XLS), XML mit DTD-Datei oder XSD-Schema, HTML
Datenbanken SIARD2 (ab Version 2.0), SQL (ab Version 2008), XML mit XSD-Schema
Dokumente PDF/A-2, PDF/A-1 (aber keine anderen PDF-Varianten), ODT, DOCX (aber nicht DOC)
Video Matroska MKV mit Video-Codec FFV1 sowie FLAC als Audio-Codec
Audio FLAC, BWF mit linearer Puls-Code-Modulation (LPCM), WAVE mit LPCM, Matroska MKA mit LPCM oder FLAC-Kodierung. Alle mit mindestens 48 kHz und 24 bit pro Kanal
Webseiten PDF/A-2, PDF/A-1 (aber keine anderen PDF-Varianten), WARC, HTML (z. B. ohne JavaScript)

Tabelle 2: Empfohlene Dateiformate für die digitale Langzeitarchivierung im Überblick.
(Stand: 07/2023)

Weitere Informationen zu empfohlenen Dateiformaten

Auswahlkriterien für Dateiformate

Das wichtigste Kriterium für die Auswahl eines Dateiformats ist der Grad an technischen Eigenschaften, die zum Bewahren signifikanter Eigenschaften benötigt werden. So kann etwa das 3D-Format „STL“, welches die Oberfläche von dreidimensionalen Objekten mittels Dreiecksfacetten beschreibt, standardmäßig nur farblose Drahtgittermodelle speichern. Werden Gegenstände 3D-gescannt, um sie mit einfarbigem Filament 3D-zu-drucken, ist das STL-Format zur Speicherung dieser Daten ausreichend. Sollen hingegen auch Farbinformationen abgelegt werden, muss ein anderes Datenformat wie z. B. „glTF“ verwendet werden.

Neben technischen Eigenschaften müssen bei Datenformaten noch weitere Bedingungen erfüllt sein, damit Daten archivfähig werden. Dazu gehören:

  • ein hoher Offenlegungsgrad,
  • eine hohe Verbreitung in der Community,
  • eine geringe Komplexität der Formatspezifikation,
  • eine hohe Selbstdokumentation,
  • eine hohe Robustheit gegenüber Datenfehlern und
  • eine geringe Abhängigkeit von anderen Ressourcen.

Ein hoher Offenlegungsgrad besteht, wenn die Spezifikation sowie Dokumentation eines Formates frei zugänglich sind und das Format mit einer offenen Lizenz versehen ist. Eine Formatspezifikation beschreibt die genaue Anordnung der Daten innerhalb eines Dateiformats und die Art der Codierung. Anhand dieser Spezifikation kann ein Archiv später im Rahmen einer Formatmigration Dateien lesen, interpretieren und erhalten. Ob ein bestimmtes Dateiformat gemäß der Formatspezifikation vorliegt, kann mit verschiedenen Validierungswerkzeugen geprüft werden (→siehe Abschnitt Formatvalidierung). Um einen hohen Offenlegungsgrad zu erreichen, sollte das Format zudem standardisiert sein, idealerweise auf internationaler Ebene mit einem ISO-Standard.

Für das Format PDF/A-1 ist beispielsweise die detaillierte Formatspezifikation im ISO-Store online käuflich verfügbar. PDF/A-1 hat daher einen hohen Offenlegungsgrad. Die Formatspezifikation von Baseline-TIFF 6.0 steht kostenlos bereit. Das Format hat daher einen noch höheren Offenlegungsgrad.

Eine hohe Verbreitung bedeutet, dass viele verschiedene existierende Tools dieses Format bereits unterstützen und von der Community aktiv auch in der Zukunft genutzt werden. Mittlerweile können nicht nur aktuelle Computer-, sondern auch Smartphone-Betriebssysteme PDF-Dateien out-of-the-box rendern. PDF/A-1-Dateien können dabei mit jedem PDF-Viewer präsentiert werden. Auch das Baseline-TIFF-Format ohne Komprimierung wird nahezu von jedem Bildbearbeitungsprogramm unterstützt. Beide haben daher eine hohe Verbreitung.

Eine geringe Komplexität ist erstrebenswert, um das Finden von Fehlern in Dateien zu erleichtern. Diese können z. B. bei der Digitalisierung entstehen. Wird bei der Aufnahme ins Archiv ein Fehler erkannt, muss dieser analysiert und behoben werden. Die Komplexität der Formatspezifikation von PDF/A-1 ist mit etwa 29 Seiten gering. Zählt man jedoch die Seiten aller PDF-Varianten zusammen, so kommt man auf mindestens 9.000 Seiten, wobei hier genutzte Spezifikationen wie bspw. die JPEG2000-Bildkompression noch nicht inbegriffen sind. Das Format PDF mit allen Varianten gilt daher als komplex. Die Formatspezifikation von TIFF 6.0 hingegen umfasst etwa 121 Seiten und weist damit eine geringe bis mäßige Komplexität auf.

Ein hoher Grad an Selbstdokumentation liegt vor, wenn das Format wie PDF und die genaue Version wie PDF/A-1a aus dem Dateiinhalt abgelesen werden können. Das wird in der Regel durch Signaturen, sogenannte „MagicBytes“, gelöst, die im Bitstream einer Datei enthalten sind. Bei allen Varianten des PDF- und TIFF-Formats können Format und genaue Version aus dem Bitstream abgelesen werden. Diese sind daher selbstdokumentierend.

Eine hohe Robustheit wird erreicht, wenn die ungewollte Veränderung eines Bits bzw. Bytes innerhalb einer Datei kaum Auswirkungen auf die Interpretierbarkeit bzw. die Darstellung des Inhaltes hat. Dabei sind mit Kompression arbeitende Formate anfälliger gegenüber Bitfehlern – unabhängig davon, ob sie verlustfrei oder verlustbehaftet arbeiten. Durch Fehler in komprimierten Daten können größere Teile der Datei unbrauchbar werden. Daher sollte Kompression in der digitalen Langzeitarchivierung vermieden werden. Kompression kann aber zulässig sein, wenn sie zum Beispiel durch Redundanz abgesichert ist, verlustfrei erfolgt, oder die zu erwartende Einsparung an Speicherplatz das Risiko von Datenverlusten aufwiegt. Andererseits benötigen unkomprimierte Daten meist mehr Speicherplatz, daher müssen – besonders bei speicherintensiven Medien wie Video oder Audio – Kosten und Nutzen besonders abgewogen werden. Zwar ist eine PDF/A-1-Datei binär codiert, aber deren Dokumentendatei an sich ist nicht komprimiert. Das Baseline-TIFF-Format ist unkomprimiert, bietet genügend Redundanz, um die meisten Fehler zu beheben, und nur ein kleiner Bereich (genauer: Teile des „Image File Directory“) reagiert stark auf Bitfehler. Daher ist die Robustheit bei beiden Beispielen mäßig bis hoch.

Schließlich bedarf es noch eines möglichst geringen Grades an Abhängigkeiten von anderen Ressourcen, wie spezieller Hardware, Software oder Internet-Ressourcen, da diese in Zukunft möglicherweise nicht mehr zur Verfügung stehen. Alle Medien einer PDF/A-Datei müssen in den gängigsten Bild- und Vektorformaten eingebettet sein. Links auf externe Ressourcen dürfen darin nicht enthalten sein. Für Baseline-TIFF gibt es keine externen Abhängigkeiten. Daher ist bei beiden Formaten in den jeweiligen Versionen der Grad an Abhängigkeiten gering.

Die Prüfung und Auswahl der Datenformate sind entscheidend für die Datenübernahme in das Archiv und für die spätere Bestandserhaltung, die weitgehend automatisiert abläuft (→siehe Abschnitt Einreichung beim Archiv).

Weiterführende Informationen zur Robustheit