3.7. Sonderfall Webarchivierung

Eine besondere Form der born-digital-Informationen sind Webseiten und Webinhalte. Nicht zuletzt durch die zunehmende Einbeziehung von Online-Quellen in die wissenschaftliche Forschung werden auch diese zu einem Teil der Forschungsdaten – oder sogar selbst zum Forschungsgegenstand – und müssen längerfristig erhalten werden. Jedoch unterliegt das Internet einer ständigen Veränderung: Inhalte von Webseiten werden geändert, umstrukturiert oder verschwinden ganz. Diese Phänomene werden als content drift (Änderung von Webinhalten), link rot (Verfall von Webseitenlinks) oder reference rot (Verfall von Zitierungen eines Webinhalts) bezeichnet. Sie betreffen das gesamte Spektrum der Online-Informationen, von einzelnen Websites, über Fachpublikationen (Coble & Karlin, 2023) bis hin zu Sammlungen von Rechtstexten (Zittrain et al., 2014). In einer Untersuchung von Artikeln aus den Bereichen Naturwissenschaft, Technik und Medizin wurde über den Zeitraum 1997 bis 2012 ein link rot level (Grad des Verfalls von Webseitenlinks) von etwa 70 % festgestellt (Klein et al. 2014).

Aufgabe der Webarchivierung ist es, sicherzustellen, dass Webinhalte auch in Zukunft erreichbar und lesbar sind. Das ermöglicht es, dauerhaft auf eine zitierte Quelle im Kontext zum Zeitpunkt der Zitation zu verweisen.

Während in dieser Handreichung bisher von einzelnen Medienarten wie Text, Bild, Video, oder 3D-Daten gesprochen wurde, für die es gut dokumentierte Lösungen zur digitalen Langzeitarchivierung gibt, ist zu beachten, dass es sich bei Webseiten auch um multimediale oder dynamisch erzeugte Objekte handeln kann. Die Langzeiterhaltung solcher interaktiven oder dynamisch generierten Webseiten ist oft nicht möglich. Das betrifft sowohl Frontends von Datenbanken, als auch nichtlineare Präsentationsformen wie interaktive Videos. Auch die Erhaltung von sozialen Medien wie Twitter / „X“, TikTok oder Diskussionsforen, Bulletin-Boards oder Chaträumen ist eine große Herausforderung.

Derzeit ist letztlich entscheidend, ob die Rohdaten der Inhalte extrahierbar sind und in archivfähige (statische) Dateiformate konvertiert werden können. So wird es bei einer interaktiven Textedition oder einem annotierten Video zunächst immer um die Archivierung der Texte (im TEI-XML-Format) oder der Videos (im MP4-Format) oder der Annotationen (z. B. im Web Annotation Data Model Format oder TEI-XML-Format) gehen. Die Weboberfläche, also das dynamische Webfrontend, wird unabhängig von konzeptionellem Aufwand oder Nutzerfreundlichkeit als nicht langzeitarchivfähig verstanden. Dynamisch generierte Inhalte oder nichtlineare, auf Nutzerinteraktion ausgerichtete Frontends können im Moment nur textlich beschrieben und mit Screenshots oder in Screencasts (d. h. kommentierte Bildschirmaufzeichnungen) linear dokumentiert werden. Mittelfristig sind Lösungen über eine Emulation, wie z. B. mit der Emulation-as-a-Service Infrastructure (EaaSI), vorstellbar.

Dennoch gibt es Möglichkeiten, Webinhalte zu archivieren. Vorreiter war das 1996 gegründete Internet Archive, das Webseiten automatisiert speichert und diese seit 2001 über die Wayback Machine online verfügbar macht. Dafür wurde ein spezifisches Datenformat entwickelt, das „Web Archive Format“ („.warc“, ISO 28500:2017). Dieses ermöglicht, verschiedene digitale Ressourcen und deren zugehörigen Metadaten in einer einzigen aggregierten Archivdatei zusammenzufassen. Das „.warc“-Format ist inzwischen als Standard für Webarchivierung anerkannt.

Bei einer Webarchivierung wird eine Webseite von einem sogenannten „Web Crawler“ durchlaufen. Dieser prüft die Webseite auf Verweise auf externe und domainzugehörige Webinhalte sowie eingebettete Medien. Der Crawler stellt die gesammelten Informationen systematisch in einer „.warc“-Datei oder einem komprimierten „.wacz“-Paket zusammen. Das Crawlen kann voll- oder halbautomatisch erfolgen. Ein derzeit weit verbreiteter Crawler ist Heritrix, der vom Internet Archive gemeinsam mit den Nordic National Libraries entwickelt wurde. Ein anderes Tool, das das Aufzeichnen bestimmter Webseiten insbesondere für Endnutzer leichter zugänglich macht, ist der von Rhizome entwickelte Webrecorder.io, seit 2020 Conifer genannt. Auch das Open-Source-Projekt Webrecorder.net arbeitet aktiv an der Entwicklung eines solchen Tools. Die Anzeige der Informationen aus den „.warc“-Dateien erfolgt mit Viewern wie der Wayback Machine oder Open Source-Ablegern wie Open Wayback. Mit Hilfsmitteln wie dem Web Curator Tool oder Conifer ist es möglich, die Inhalte der „.warc“-Dateien zu verwalten und die einzelnen Crawls zu steuern.

Für die Sicherung dynamischer Webinhalte gibt es mittlerweile eine ganze Reihe von Tools und Anwendungen, die aber neben den technischen Entwicklungen immer auch von den APIs der Plattformbetreiber oder auch deren Nutzungsbedingungen abhängig sind (wie vor allem das Beispiel Twitter / „X“ zeigt, woraus auch die Initiative des DNB Twitter-Archivs entstanden ist). So finden sich Tools wie Memespector, YouTube-Data-Tools und 4Cat, die es erlauben, einen Großteil der Daten zu sichern. Bei jeder Sicherung von Webinhalten muss aber immer auch die Frage nach den →erhaltenswerten Eigenschaften gestellt werden, denn nur die für die jeweilige Forschungsfrage relevanten Daten sind (langzeit-)erhaltenswert.

Mittlerweile gibt es verschiedene, teils kommerzielle Initiativen, wie Perma.cc, die sich dem Archivieren von Webseiten widmen. Das an das Internet Archive angebundene Archive-It archiviert für eine Reihe von Institutionen und Projekten Webinhalte aus dem kulturellen Bereich, beispielsweise das Collaborative ART Archive (CARTA). Internationale Vereinigungen wie das International Internet Preservation Consortium (IIPC) führen die Web Archiving Community zusammen, bieten Fachinformationen an und tauschen sich beispielsweise auf der jährlich stattfindenden Web Archiving Conference aus.

Im europäischen Kontext ist die schwierige Abklärung der Rechtslage der Inhalte, sowohl der Texte, als auch der eingeschlossenen Medien, ein wesentliches Hindernis für eine systematische Webarchivierung. Darüber hinaus kann für interaktive Webinhalte, die beispielsweise mit JavaScript gesteuert werden, von digitalen Langzeitarchiven nur der Erhalt der Datenintegrität und nicht der Nutzbarkeit garantiert werden. In Deutschland existieren eine Reihe von Webarchivierungs-Initiativen auf Bundes- (Deutsche Nationalbibliothek – Webarchivierung) und Länderebene (Altenhöner, 2019), die zumeist im Rahmen des gesetzlichen Sammelauftrags der Bibliotheken und Archive agieren. Eine Einsicht in die archivierten Inhalte ist dabei aufgrund technischer und rechtlicher Beschränkungen oft nur an einem Computerterminal im Lesesaal vor Ort möglich.

Für Webarchivierung im Kontext der NFDI4Culture muss festgestellt werden, dass bisher noch kein spezifisches Langzeitarchiv für Web-Ressourcen verfügbar ist. Es existieren jedoch einzelne Initiativen, wie beispielsweise Saving Ukrainian Cultural Heritage Online, die Webinhalte themenorientiert sichern. Je nach Inhalt und Software (z. B. Telegram) muss beim Sichern von dynamischen Webinhalten sowohl auf skriptbasierte als auch auf manuelle Prozesse zurückgegriffen werden. Dabei sind die jeweils eingesetzten Datenbanken und Ablagesysteme oftmals sehr individuell angepasst und ihre Speicherung verlangt manuelle Eingriffe, wie das Beispiel des ukrainischen „Telegram Archive of the War“ zeigt. Neben dem Informationsangebot von nestor ist auch die von mehreren NFDIs ausgerichtete Veranstaltungsreihe zu Social Media-Daten nennenswert.

Unabhängig von der inhaltlichen Ausrichtung gibt es Vorschläge, wie Forschende Weblinks robuster machen können. Ein Vorschlag von Eld Zierau (Royal Danish Library) ist die Einführung eines PIDs für Webressourcen – ein Persistent Web IDentifier (PWID). Dieser muss jedoch erst zu einem Standard und breit akzeptiert werden. (Jones et al. 2021) schlagen vor, dass die Forschenden sich selbst aktiv um die Sicherung der von ihnen zitierten Webseiten in Webarchiven wie dem Internet Archive sorgen. Zusätzlich sollte in der Zitation neben der originalen URL auch die der archivierten Seite angegeben werden. Diesen Ansatz unterstützt auch diese Handreichung, indem bei potentiell instabilen Webressourcen zusätzlich ein Link auf die archivierte Seite in der Wayback Machine angeboten wird. Dabei werden Internetressourcen als (potentiell) stabil angesehen, wenn sie zu großen institutionalisierten Publikationsplattformen gehören (wie z. B. Zenodo), über persistente Identifier (DOI, Handle, etc.) angesprochen werden können oder zu etablierten digitalen Zeitschriften gehören (z. B. DHQ, Code4Lib, etc.).

Weitere Informationen zur Problematik vergänglicher Webressourcen
  • Klein, Martin / Sompel, Herbert Van de / Sanderson, Robert / Shankar, Harihar / Balakireva, Lyudmila / Zhou, Ke / Tobin, Richard: "Scholarly Context Not Found: One in Five Articles Suffers from Reference Rot", in: PLOS ONE, 9(12), 2014. https://doi.org/10.1371/journal.pone.0115253
  • Zittrain, Jonathan / Albert, Kendra / Lessig, Lawrence: "Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations", in: Legal Information Management, 14(2), 2014, S. 88–99. https://doi.org/10.1017/S1472669614000255
  • Coble, Zach / Karlin, Jojo: „Reference Rot in the Digital Humanities Literature: An Analysis of Citations Containing Website Links in DHQ“, in: Digital Humanities Quarterly, 017(1), 2023. http://www.digitalhumanities.org/dhq/vol/17/1/000662/000662.html
  • Beinert, Tobias / Schmid, Katharina / Weimer, Konstanze: „Infrastrukturen und Services für die wissenschaftliche Nutzung von Webarchiven: Ein Überblick“, in: o-bib. Das offene Bibliotheksjournal / Herausgeber VDB, 9(3), 2022, S. 1–15. https://doi.org/10.5282/o-bib/5821
  • Jones, Shawn M. / Klein, Martin / Sompel, Herbert Van de: "Robustifying Links To Combat Reference Rot", in: The Code4Lib Journal, (50), 2021. https://journal.code4lib.org/articles/15509

Übersicht Anleitungen und Tools zur Webarchivierung

Weiterführende Informationen zum WARC-Format

Weiterführende Literatur

Zur Langzeitarchivierung von Social Media:

Zu Webarchivierung in Deutschland:

Webarchive in Deutschland (Auswahl):