2.07. Annotationsdaten aus dem zeitgenössischen Tanz erhalten und erweitern: Migration der Daten der Forsythe Company und des Motion Bank Projekts 2008–2023

Das Projekt ist etwas verspätet (Q2 anstelle Q1) in 2024 gestartet, konnte aber bis Ende 2024 abgeschlossen werden. Alle geplanten und beantragten Arbeitspakete wurden erfolgreich abgeschlossen. Aufgrund der Nutzung der Mittel für Personalausgaben (Aufstockung einer existierenden Stelle um 25 %) und der Laufzeit und Projektziele entstand ein leichter Mehraufwand von rund 1675 Euro.

Arbeitsprozess

Die Motion Bank Annotationssoftware hat mittlerweile vier größere Aktualisierungen und Neuentwürfe durchlaufen, denen jeweils ein mehr oder weniger abweichendes Datenschema zugrunde liegt. So wird zwar seit der dritten Iteration mit dem „Web Annotation Data Model“ des W3C gearbeitet, jedoch sind hier ebenfalls leichte Unterschiede zur aktuellen Version zu verzeichnen. Um nun gemäß des Projektplans Datensätze aus den alten Versionen in die aktuelle zu migrieren, wurde eine Sammlung an Skripten zur Umwandlung erstellt.

Das Werkzeug zur Datenmigration basiert auf einem modularen Konzept, bei dem grundlegende Funktionen zur Umwandlung von Mediendateien, Kommunikation mit verschiedenen Datenbanksystemen und die Übertragung und allgemeine Speicherung und Verwaltung von Dateien generalisiert verfügbar sind. Auf dieser Basis werden für jede Migration einzelne Module geschrieben, die sich dieser allgemeinen Funktionen bedienen und jeweils einen für die Kombination an Versionen spezifischen Umwandlungsvorgang abbilden. Das Zielschema ist immer die aktuelle Version, die alle Medien in einer eigenen Datenbank ablegt und diese zusammen mit den Annotationen unter einer sogenannten „Timeline“ gruppiert, die sowohl eine thematische Klammer als auch eine Referenz auf die koordinierte Weltzeit (UTC) darstellt. So beziehen sich die Annotationen nicht direkt auf einzelne Medien, sondern auf die absolute „historische“ Zeitlinie und korrelieren mit den Medien, die ebenfalls auf diese Bezug nehmen.

Die ursprüngliche Version der Software, die innerhalb der Forsythe Company entstanden ist, kennt das allgemeine Konzept der Timeline noch nicht, sondern ordnet die Annotationen einzelnen Produktionen (Pieces) zu. Hier wurden analog zu den einzelnen Produktionen, die die Probenarbeit innerhalb der Forsythe Company über mehrere Jahre darstellen, jeweils einzelne neue Timelines erstellt und die Medien daran angehängt, indem sie aus dem ursprünglichen Datenarchiv geladen, in ein zeitgemäßes H.264- und AV1-Format gewandelt und im aktuellen Datenspeicher abgelegt wurden. Die Annotationen wurden aus dem proprietären Format auf die verwendete Interpretation des Web-Standards gewandelt. Aus der zweiten Version der Software wurde exemplarisch einer der vielen Datensätze, in diesem Fall zur Arbeit der Choreografin Deborah Hay, der im Rahmen der initialen Forschungsphase ab 2010 entstand ist, übertragen. Hier ist das Konzept der Timeline analog als sogenannte „Groups“ abgebildet und es wurden, ähnlich wie bei der ersten Version, lediglich die Medien gewandelt und transferiert sowie die Annotationen aus dem proprietären damaligen Format in den Web-Standard überführt. Mit dem entwickelten Skript lassen sich nun nach und nach alle weiteren Datensätze aus dieser Anwendungsversion in die aktuelle Version migrieren. Der Datensatz zur Choreografie „Effect“ aus dem Forschungsprojekt „Between Us“ wurde aus der dritten Version exemplarisch übertragen, die ebenfalls das Konzept der Timeline verwendet und bereits eine erste Interpretation des W3C-Formats implementiert. Hier mussten hauptsächlich die Medien in das neue Format und den neuen Speicher überführt werden und bei den Annotationen minimale Anpassungen vorgenommen werden. Auch hier können nun mittels Konverter nach und nach alle Datensätze in die aktuellste Version transferiert werden. Im Zuge des Datentransfers wurde für alle Datensätze von der Machine Learning-Implementierung der aktuellen Version der Annotationssoftware Gebrauch gemacht. So wurden alle transferierten Videos unmittelbar über das implementierte Speech-to-Text-Modell „Whisper“ transkribiert, was gerade bei den zahlreichen Aufzeichnungen von Tanzproben und Vermittlungssituationen von Tanz besonders relevant ist, insofern hier verbale Kommunikation eine wichtige Rolle spielt. Weitere Datenanreicherung durch automatisierte Analysen ist nun grundsätzlich problemlos, wurde aber zur Ressourcenschonung vorerst zurückgestellt, da es derzeit keine konkrete Forschungsfrage an die Datensätze gibt, für die weitere ML-Verfahren notwendig wären.

Ergebnis / Ausblick

Mit der Entwicklungsarbeit zur Datenmigration im Rahmen der Förderung wurden wichtige Grundsteine für die Migration der gesamten Daten aus den verschiedenen Versionen der Annotationssoftware von Motion Bank gelegt. Für die Daten aus der Version der Forsythe Company ist die Migration vollständig abgeschlossen. Die Daten können somit auch außerhalb der ursprünglichen Software erhalten und potentiell angereichert werden, unterliegen allerdings klaren rechtlichen Beschränkungen, die keine Datenpublikation erlauben. Anders bei den exemplarisch migrierten Daten zu Deborah Hay und der Tanzproduktion „Effect“, die zukünftig im Datenportal von Motion Bank (https://data.motionbank.org/) zugänglich gemacht werden sollen. Auch andere Nutzende einer der Versionen der Motion Bank Software – darunter Tanzcompagnien, Tanzstudiengänge, Choreograf:innen, Tänzer:innen – haben nun die Möglichkeit, ihre Daten in die aktuelle Version transferieren zu lassen, und können selbst über eine Datenpublikation entscheiden.

Florian Jenett, David Rittershaus und Anton Koch