Logical Preservation

Die Logical Preservation ist die Erhaltungsstrategie der Content Preservation, bei welcher der Erhalt der technischen Interpretierbarkeit bzw. die Ausführbarkeit der Objekte durch Software sichergestellt wird.

Potentiell auftretende Probleme sind hier die langfristige Verfügbarkeit von Software (so lässt sich etwa das früher gängige Picture Exchange-Bildformat (.pcx) mit heute gängigen Programmen nicht mehr öffnen), aber auch Sicherheitsrisiken (wie beispielsweise der Adobe Flash Player, der in der Vergangenheit verstärkt Malware-Attacken zum Opfer fiel).

Voraussetzung für die Erhaltungsplanung ist bei der Logical Preservation eine Dokumentation von software- und dateiformatspezifischen Anforderungen in Form von technischen und administrativen Metadaten. So lässt sich eine künftige Fehlinterpretation bzw. falsche Darstellung eines Objekts durch Software vermeiden.

Im Wesentlichen werden drei Erhaltungsmaßnahmen unterschieden:

  • Formatmigration
  • Emulation
  • Hardware Preservation

Digitale Langzeitarchive innerhalb NFDI4Culture, die Content Preservation anbieten:

Formatmigration

Ziel der Formatmigration ist es, Dateien im Archiv in aktuelle und zukunftssichere Formate bzw. Versionen zu überführen. Sie wird vom Archiv im Rahmen der Erhaltungsplanung innerhalb des Prozesses der digitalen Langzeitarchivierung durchgeführt.

Fast alle Computersysteme verwenden heutzutage zum Beispiel die ASCII-Codierung für Textdateien. Diese beschreibt, dass beispielsweise ein Zeichen mit der Nummer 65 (bzw. binär codiert 0100 0001) ein großes „A“ darstellt. Dadurch sind Textdateien seit den 1960er- Jahren für Menschen nahezu plattformunabhängig und ohne weitere Hilfsmittel darstellbar. Die meisten Word-DOC-Dokumente werden schon in ein paar Jahren veraltet sein und dann mit gängiger Software nicht mehr korrekt dargestellt werden können. Warum ist das so? Eine ASCII-Textdatei ist ein anwendungsunabhängiges Dateiformat, während moderne Office-Dokumente ihre Form und Erscheinung erst durch die Interpretation einer speziellen Software erhalten. Kompliziert ist es, wenn das Word-Dokument nicht nur aus einer, sondern aus verschiedenen verknüpften Dateien besteht, wie es bei Webseiten oder Computerspielen der Fall ist.

Um ein Format in ein neues Zielformat übertragen zu können, muss der Aufbau des Ausgangsformats bekannt sein. Ist das Ausgangsformat herstellerspezifisch und nicht-offen, also proprietär, können die Daten nicht gelesen und verändert werden; eine Migration ist dann nicht möglich (zum Beispiel können alte Windows 3.1-Anwendungen nicht migriert werden, da es keine Formatkonverter gibt). Hier ist nur eine →Emulation möglich.

Bei einer Formatmigration kann es zu Datenveränderungen oder sogar zu Informationsverlust kommen. Bekanntes Beispiel in der digitalen Langzeitarchivierung sind WordStar-Dokumente, in denen Tabellen nach der Migration auf eine neue Version nicht mehr angezeigt werden konnten, oder auch PDF-Dateien, bei denen sich durch die Migration die Seitennummerierung änderte.

Um Informationsverlust zu vermeiden, sollten die Originaldateien bzw. die einzelnen Archivpakete (AIPs) vor der Migration ebenfalls aufbewahrt werden.

Die Formatmigration arbeitet üblicherweise mit einzelnen Dateien. Jedoch existiert nicht für jeden vorliegenden Dateityp ein geeignetes Zielformat. Im Falle komplexer, verknüpfter Objekte ist es nach einer Migration in der Regel nur noch möglich, die einzelnen Dateien statt das Verbunddokument zu betrachten. Eine funktionierende Verknüpfung von Daten ist hier wesentlich.

Fallbeispiel: Formatmigration von Adobe Flash-Dateien

Bis Ende 2020 war es üblich, Adobe Flash-SWF-Dateien im digitalen Langzeitarchiv aufzubewahren. Der vorher sehr verbreitete und in Webseiten zur Darstellung multimedialer Inhalte genutzte Adobe Flash Player wurde Ende 2020 jedoch vom Hersteller selbst aufgrund kostenintensiver Wartung eingestellt. Wurde Flash von den im Archiv befindlichen Materialien nur zur Darstellung von Text und Bildern genutzt, konnten diese in HTML-Webseiten überführt werden. Handelte es sich jedoch um interaktive Anwendungen, konnten diese nur mit anderen Erhaltungsmaßnahmen, wie Emulation oder Hardware Preservation, erhalten werden.

Digitale Langzeitarchive innerhalb von NFDI4Culture, die Content Preservation mit Formatmigration anbieten:

Emulation

Als Emulation wird die funktionelle Nachbildung eines Systems bezeichnet. Die Ausgangsdateien bzw. der Bitstream bleiben hierbei unverändert. Bei der Emulation werden die Laufzeitumgebung bzw. die benötigten Tools erhalten, um die archivierten Daten lesbar zu machen und geeignet darzustellen. Für einige Anwendungsbereiche ist das die einzige Erhaltungsmöglichkeit, wie folgendes Beispiel zeigt.

Fallbeispiel: Logical Preservation mittels Emulation

Abbildung 10: Buch mit 5,25-Zoll-Diskette aus den 1990ern, die u. a. WordPerfect-Dokumente enthält. (Links: © Matthias Razum, CC BY 4.0 International; rechts: © WinWorld)

Bis Anfang der 2000er Jahre wurden Büchern manchmal Datenträger wie im linken Bild der oberen Abbildung beigelegt. Die Diskette im Buch enthält WordPerfect-Dokumente mit Tabellen und Anwendungen für Windows 3.1. Um diese unter modernen Betriebssystemen zu öffnen und auszuführen, müssen meist Emulatoren genutzt werden, wie im rechten Bild der Abbildung dargestellt ist: Hier läuft Windows 3.1 mit WordPerfect im DOSBox-Emulator unter Windows 10.

Die größte Schwierigkeit bei der Emulation ist jedoch die rechtliche Lage, vor allem hinsichtlich der Lizenzen kleinerer Software-Bestandteile (→siehe auch Abschnitt Klärung rechtlicher Aspekte). In der EU hängt das Urheberrecht am Datenträger, etwa einer CD-ROM, deren geschützte Daten nicht kopiert werden dürfen. Da in den USA hingegen das „fair use“-Prinzip gilt, ist Emulation dort verbreiteter.

Deutsche digitale Langzeitarchive, die Expertise mit Emulation haben:

Hardware Preservation

In der digitalen Langzeitarchivierung verwendet man oft den Begriff „Hardware Museum“, um den Prozess der Hardware Preservation zu beschreiben. Im Folgenden wird der Prozess „Hardware Preservation“ genannt, um sich von Einrichtungen zu unterscheiden, die Hardware bewahren und ausstellen. Bei der Hardware Preservation werden digitale Objekte auf ihren originalen Datenträgern mit ihrer originalen Hardware- und Software-Umgebung erhalten. Dabei steht der Erhalt der digitalen Objekte, nicht der Erhalt der Hardware im Mittelpunkt.

Diese Erhaltungsmaßnahme der Content Preservation ist charakteristisch für die Frühphase eines digitalen Archivs, in der noch keine technische Möglichkeit zum Transfer bestimmter Daten auf aktuelle Plattformen bzw. zur Formatmigration und Emulation erarbeitet wurde. Die Hardware Preservation bietet zwar einen Einblick in die ursprüngliche Nutzungserfahrung digitaler Objekte, jedoch stellen der Platzbedarf, der eingeschränkte Zugriff für Nutzende und die Wartung der Geräte eine große Herausforderung dar.

Digitale Langzeitarchive mit Hardware Preservation:

Fallbeispiel: Grenzen der Emulation

Abbildung 11: Gameboy-Advance-Spiel „Boktai: The Sun is in Your Hand“ von Konami Computer Entertainment Japan, 2003.Die vom Sonnensensor im oberen Teil der Karte erfasste Stärke des Sonnenlichts wird in Echtzeit im Spiel reflektiert. (Foto links: Gameboy Mikro mit Boktai-Spiel, © Autor unbenannt, via Flickr, CC BY-SA 2.0; Mitte: Sonnensensor der Boktai-Spielkassette, © Tobias Kleinmann, CC0; rechts: Bildschirmausschnitte der Spielverpackung, © Autor unbenannt, via Tumblr)

Die Archivierung interaktiver dynamischer Anwendungen und Spiele ist eine besondere Herausforderung. Im Beispiel soll das Spiel Boktai: The Sun is in Your Hand im Kontext eines Computerspielemuseums archiviert und Besucher:innen zugänglich gemacht werden.

Das Spiel wurde als Spielkassette für den Nintendo Gameboy Advance veröffentlicht. Auf der Kassette ist ein spezieller Lichtsensor angebracht, der zum Spielen benötigt wird. Die erfasste Stärke des Sonnenlichts wird dabei in Echtzeit in der Spielwelt reflektiert: Das Sonnenlicht lässt den Protagonisten des Spiels „Django“ „tagsüber kraftvoller werden“ und kann „genutzt werden, um Vampire zu bekämpfen“ (siehe obere Abb. rechts).

Während das Spiel als solches emuliert werden kann, ist das bei diesem Sensor mittels heutiger Emulatoren nur über spezielle Umwege möglich. Das bedeutet, dass der Bitstream der Kassette zwar ausgelesen und emuliert werden könnte, das Spiel aber nicht, wie ursprünglich konzipiert, nutzbar ist. Es kann daher nur mittels Original-Hardware in vollem Umfang zugänglich gemacht werden. Zusätzlich kann der Bitstream der Kassette ins digitale Archiv geliefert werden.

Fallbeispiel: Logical Preservation mittels Erhalt von Original-Hardware

Abbildung 12: Schreibmaschine KX W1500 von Panasonic, 1989. (Foto: © Autor ohne Namen)

Einige Systeme nutzen proprietäre Formate, was sowohl Hardware als auch Software umfassen kann. So kann zwar der „rohe“ Bitstream, der von einer Panasonic KX W1510-Schreibmaschine auf eine 3,5-Zoll-Diskette geschrieben wurde, als Ganzes ausgelesen werden. Der Inhalt einzelner Dokumente jedoch kann mit herkömmlichen Mitteln nicht ausgelesen werden, da das Dateisystem der Disketten proprietär ist.

Da es für diese Schreibmaschine keine Emulatoren gibt und im konkreten Fall eine an den Hersteller gerichtete Anfrage zur Formatspezifikation erfolglos blieb, können die gespeicherten Dokumente nur mittels der originalen Hardware zugänglich gemacht werden.