Feedback geben

3.6 Archivierung, Formate, Metadatenstandards

Die Antworten auf Frage 6 machen deutlicher als in anderen Bereichen, dass Archivierung und Metadatenpraxis nicht als einheitliches Themenfeld erscheinen, sondern als eine Vielzahl miteinander verschränkter Herausforderungen, die je nach Plattform, Datentyp, rechtlichem Rahmen und Projektkontext stark variieren. Um diese Heterogenität sichtbar zu machen, werden die zentralen Dimensionen im Folgenden in mehrere thematische Unterabschnitte gegliedert.

Heterogenität der Daten erzwingt fallbezogene Archivierung

In Session 3 beschreibt Steffen Albrecht sehr klar, dass die Diversität der Datenarten (z. B. Telegram-Kanäle, YouTube-Beschreibungen, Forenleaks wie „Iron March“) eine Standardisierung faktisch verhindert: „Da gibt es kein wirkliches einheitliches Schema. […] Ich arbeite mit sehr heterogenen Daten […] und muss das fallbezogen anders aufarbeiten.“ Der Umgang mit personenbezogenen oder sensiblen Daten – etwa Kommentarinhalten, pseudonymisierten Nutzerprofilen oder Gewaltmaterial – zwingt zu je unterschiedlichen Archivierungslogiken. Dies betrifft nicht nur Speicherformate, sondern auch die Frage, ob und unter welchen Bedingungen bestimmte Daten überhaupt archiviert werden dürfen.

Multimodalität als archivische Herausforderung

Elena Pilipets betont, dass multimodale Plattformpraktiken – also die Kombination aus Text-, Bild-, Audio- und Interaktionsdaten – zu mehrfachen Archivierungswegen führen: „Datenformate werden dann attuned zu den multimodalen Plattformpraktiken – Bilddaten, Audiodaten, Textdaten – und entsprechend in unterschiedlichen Formaten gespeichert.“ Dies macht deutlich, dass Social-Media-Archivierung immer plattform- und datenspezifisch ist und daher keine universellen Metadatenstandards existieren, die alle Datenarten adäquat erfassen könnten.

Spannungsfeld zwischen Forschungspraxis und institutionellen Vorgaben

Für größere Projekte bestimmen häufig die institutionellen und förderrechtlichen Rahmenbedingungen, wie archiviert wird. Albrecht beschreibt dies so: „Ich orientiere mich dann natürlich primär an dem Letter of Agreement […] oder dem, was Drittmittelgeber wie das BMBF vorschreiben.“ Damit zeigt sich ein strukturelles Spannungsfeld: Die Vorgaben der Förderinstitutionen sichern minimale Standards, decken aber nicht die spezifischen Anforderungen der Social-Media-Forschung ab – insbesondere hinsichtlich Pseudonymisierung, Umgang mit sensiblen Inhalten oder Schutz vor Re-Identifizierbarkeit.

Fehlende Werkzeuge und geringe Kapazitäten

Gerade kleinere Teams verfügen weder über eigene Repositorien noch über Metadatenexpertise. Isabel Bezzaoui und Ina Ni weisen darauf hin, dass die vorhandenen Daten „für andere zugänglich zu machen“ ein Ziel sei, aber ohne geeignete Infrastruktur kaum realisierbar ist. Auch der Wunsch nach einfachen, niedrigschwelligen Ablagesystemen, die dennoch datenschutzkonform sind, wurde wiederholt formuliert.

In mehreren Sessions wird zudem sichtbar, dass Forscher:innen sich oft pragmatisch behelfen müssen – etwa mit Google Drive –, weil institutionelle Lösungen fehlen oder zu unflexibel sind: „Ich arbeite gerne mit Google Drive, trotz vieler Fragen aufgrund der Kapazitäten.“ (Elena Pilipets) Dies unterstreicht die Kluft zwischen tatsächlicher Forschungspraxis und Normvorstellungen über Datenarchivierung.

Unterstützungserfordernisse: Standards, Schulung, klare Verantwortlichkeiten

Alle drei Sessions zeigen deutliche Bedarfe:

Unterstützung bei Metadatenstandards, die multimodale Social-Media-Daten sinnvoll beschreibbar machen
klare archivische Vorgaben, die über das Mindestmaß hinausgehen
IT-sichere, rechtssichere Ablagemöglichkeiten, die kollaborativ nutzbar sind
Schulungen und Data Stewardship, um diese Anforderungen in Projekten zu operationalisieren

Besonders relevant wäre nach Einschätzung der Beteiligten eine Infrastruktur, die sowohl Persistenz (Langzeitverfügbarkeit) als auch Zugriffskontrolle (z. B. für sensible Extremismusdaten) gewährleistet.

Zusammenfassung

Insgesamt wird sichtbar, dass Archivierung in der Social-Media-Forschung keine standardisierbare Routine darstellt, sondern ein komplexes Zusammenspiel aus sehr unterschiedlichen Datenformaten, plattformspezifischen Exportstrukturen, sensiblen Inhalten und rechtlichen Restriktionen. Die Projekte arbeiten gleichzeitig mit HTML-Exports, JSON-APIs, Bild- und Videodateien, zirkulierenden Memes, kommentarbasierten Kommunikationsfäden oder ganzen Kanal- und Thread-Verläufen. Diese Heterogenität macht einheitliche Metadatenstandards faktisch unmöglich.

Zugleich wird deutlich, dass zentrale Entscheidungen – etwa, welche Daten überhaupt archiviert werden dürfen, wie Pseudonymisierung für unterschiedliche Formate umgesetzt wird oder wie multimodale Materialitäten (Text, Bild, Audio, Interaktionen) zusammengeführt werden – nur kontextsensibel getroffen werden können. Besonders kleinere Teams sind hier durch fehlende Repositorien, mangelnde Metadatenexpertise und unzureichende institutionelle Alternativen zu pragmatischen Lösungen strukturell benachteiligt.

Eine nachhaltige Archivierungspraxis setzt daher modulare, sichere und flexibel kombinierbare Ablagesysteme voraus, die sowohl Multimodalität als auch Datenschutz- und Sicherheitsanforderungen berücksichtigen und zugleich rechtliche Risiken (etwa Re-Identifizierbarkeit) minimieren. Langfristige Reproduzierbarkeit ist ohne institutionelle Unterstützung, qualifiziertes Data Stewardship und konsensuelle Mindeststandards – insbesondere bei der Arbeit mit extremismussensiblen Daten – nicht zu gewährleisten.