Einreichung beim Archiv

Wenn SIPs an das Archiv abgegeben werden, durchlaufen sie den Prozess der Datenübernahme, dem sogenannten Ingest. Dieser umfasst die Prüfung auf Vollständigkeit und Unversehrtheit anhand mitgelieferter Prüfsummen und Abgleich von Verzeichnisstrukturvorgaben des Archivs, die →Datenformaterkennung, die →Datenformatvalidierung, die Anreicherung mit technischen und administrative →Metadaten, ggf. eine →Formatkorrektur sowie schließlich die →Umwandlung in Informationspakete.

Formaterkennung

Während der Datenübernahme müssen zunächst die Datenformate identifiziert werden. Tools wie z. B. DROID dienen der automatisierten Formaterkennung und sind meist in Archivinformationssystemen integriert.

Das PDF-Format umfasst bspw. eine Vielzahl an Subtypen und Versionen. So existiert eine Norm für die Langzeitarchivierung: das PDF/A Format. Dieses Format umfasst wiederum diverse Subtypen. Liegt eine Datei mit der Endung „.pdf” vor, lässt dies zunächst keine Aussage über die tatsächliche PDF-Version zu. Deswegen erfolgt eine automatisierte Formaterkennung über Signaturen, die im Bitstream innerhalb einer Datei enthalten sind.

Digitale Formatsignaturen entsprechen standardisierten IDs, die in Formatdatenbanken wie z. B. PRONOM dokumentiert sind. Dank standardisierter Signaturen können Archive genaue Aussagen darüber treffen, welche konkreten Formate und Format-Subtypen bei der Datenübernahme erfasst bzw. bereits in den Speichersystemen vorgehalten werden.

Tools zur Formaterkennung

Formatvalidierung

Ist das Datenformat bekannt, wird die Datei gegen ihre jeweilige Formatspezifikation validiert, um sicherzustellen, dass die eingelieferten Daten auch tatsächlich deren Spezifikationen entsprechen. Nur dann kann der Erhalt der Datei und die erfolgreiche Durchführung von Erhaltungsmaßnahmen sichergestellt werden.

Bei PDF-Dateien lässt sich die Gültigkeit der Formatspezifikation z. B. mit den Validierungstools JHOVE oder veraPDF prüfen. Bei TIFF-Dateien kann dies mit den Tools checkit_tiff oder DPF Manager geschehen.

In der folgenden Abbildung wird ein fehlerhafter HTML-Quellcode dargestellt: Zum einen ist das Element <center>...</center> nicht korrekt geschlossen, und zum anderen muss das schließende </center>-Tag vor dem schließenden </h1>-Tag stehen, denn eine Tag-Überschneidung ist in HTML nicht gestattet. Zwar kann der dargestellte HTML-Code mit aktuellen Browsern korrekt gerendert werden, die darin befindlichen Syntaxfehler könnten jedoch dazu führen, dass mit zukünftigen Browsern dieser HTML-Inhalt nicht mehr korrekt oder überhaupt nicht mehr dargestellt wird.

<html>
<h1><center>Dieses HTML-Dokument ist nicht regelkonform,
wird aber u.U. wie gewünscht dargestellt.</h1><center>
</html>
Abbildung 7: Beispiel einer fehlerhaften HTML-Datei.
Tools zur Formatvalidierung

Extraktion technischer Metadaten

Im Anschluss erfolgt die Extraktion technischer Metadaten, die für die Archivierung und die Risikobewertung relevant sind. Wie zuvor am Beispiel von PDF-Dateien gezeigt, können Dateiformate in verschiedenen Subversionen vorliegen, die allein an der Dateiendung nicht erkannt werden können. Eine über einen Scanner erstellte TIFF-Bilddatei kann intern komprimiert oder unkomprimiert sein. Diese Information wird in den technischen Metadaten vermerkt. Da komprimierte Daten in Archiven häufig vermieden werden, fiele eine komprimierte TIFF-Datei nach der Extraktion der technischen Metadaten auf. Sollte sie nicht abgelehnt werden, fiele zumindest ihre Risikobewertung schlechter aus. Mit dem Wissen über die Ausprägung der Formate, die sich im Archiv befinden, kann das Archiv Metadaten für eine ganz spezifische Untermenge an Daten extrahieren und gezielte Erhaltungsmaßnahmen durchführen.

Formatkorrektur

Einige Archive, wie das SLUBArchiv, halten Datengebende zu Korrekturen ihrer Dateien an, bevor sie diese ins Archiv übernehmen. Ziel ist dabei, Abweichungen einer Datei gegenüber ihrer Formatspezifikation zu bereinigen, so dass die Datei von einem Validierungstool akzeptiert wird. So können etwa Fehler von TIFF-Bilddateien mit dem Tool fixit_tiff oder von PDF/A-Dateien mit dem Tool PDF/A-Pilot korrigiert werden.

Formatwissensdatenbanken
Format-Tool-Datenbanken