2.09. Facepager for NFDI

Facepager ist ein Open-Source-Programm, das Wissenschaftler:innen den Einstieg in die automatisierte Datenerhebung über Application Programming Interfaces erleichtert. Die Anwendung ist ein didaktisches Tool vorrangig für Personen ohne Programmierkenntnisse: Nutzende werden zur Auseinandersetzung mit Daten-Providern, mit API-Dokumentationen und zur Behebung von Fehlern angeregt und reflektieren dadurch Möglichkeiten und Grenzen automatisierter Datenerhebung. Die Entwicklung erfolgte bislang vor dem Hintergrund von Studien im Bereich Computational Social Science. Tutorials und Presets waren dementsprechend vorrangig auf Social-Media-Plattformen zugeschnitten. Durch die Fördermaßnahme wurden erste Schritte zur Öffnung des Tools für Anwendungsbereiche in den Digital Humanities umgesetzt. Die neu entwickelten Materialien und Funktionen wurden teilweise bereits in forschungsorientierten Lehrveranstaltungen eingesetzt und können nun sukzessive erweitert werden.

Die Umsetzung gliedert sich in vier Module: die Entwicklung von Presets, das Erstellen von Tutorials, den Ausbau von Workflows und schließlich ein neues Facepager-Release. Damit wurden alle geplanten Module vollständig umgesetzt. Was wird damit ermöglicht?

  1. Ein Einstieg in die Abfrage von Knowledge Graphen über SPARQL. Damit lassen sich beispielsweise Daten wie das Geschlecht für Personen erheben.
  2. Mehrstufige Erhebungen mittels Pipelines, um etwa zunächst Akteure und dann die Verbindungen zwischen Akteuren zu erheben.
  3. Die Verarbeitung von Linked Open Data, indem Facepager aus den üblichen Formaten (rdf/xml, json-ld, ttl) alle Triple extrahiert und in tabellarischer Form für den Export oder für anschließende Datenerhebungen aufbereitet.

Damit wurde eine Grundlage für die zukünftige sukzessive Erweiterung von Funktionalitäten und Hilfematerialen geschaffen.

M1 Presets

Insgesamt wurden sechzehn neue Presets erstellt, getestet, dokumentiert und veröffentlicht. Diese Presets stehen nach der Installation von Facepager über den entsprechenden Menüpunkt zur Verfügung (siehe Abbildung 1). Die Presets lassen sich zwei Kategorien zuordnen.

Elf Presets ermöglichen einen Einstieg in bibliometrische Analysen auf Grundlage der Open Library (Autor:innen und Metadaten zu Werken), OpenAlex (Autor:innen, Metadaten zu Werken, institutionelle Zugehörigkeiten, Quellen, Literaturrecherche sowie internationale Kollaborationen) und des Open Citation Index (Quellen, Metadaten und Zitate).

Mit fünf weiteren Presets wird die Arbeit mit Knowledge Graphen unterstützt. Sie bauen auf dem neu entwickelten SPARQL-Modul auf (siehe M3 Workflows). Als Einstieg dienen Presets zur Datenerhebung über Wikidata (Netzwerkanalyse literarischer Strömungen, Geschlechterdaten von Musiker:innen). Zudem wurde ein Preset für SemOpenAlex, einer graph-basierten Alternative zu OpenAlex, entwickelt. Für die Erhebung von Daten aus dem Culture Knowledge Graph wurde eine Beispielpipeline (siehe M3 Workflows und Abbildung 2) mit zwei aufeinander aufbauenden Presets entwickelt (Beispielfall: Ferdinand Gregorovius Briefedition). Zunächst werden GND IDs erhoben, die dann um Metadaten aus dem Katalog der deutschen Nationalbibliothek ergänzt werden.

Abbildung 1, Auswahl von Presets für bibliometrische Analysen

M2 Tutorials

Rund um die entwickelten Presets und Workflows sind begleitende Tutorials entstanden und Einstiegshilfen überarbeitet worden:

  • Getting Started with SPARQL: Learn the basics and how to use it with Facepager
  • Getting Started with Wikidata Get the gender of artists
  • Getting Started with Wikidata Construct a network of writers
  • Getting Started with the Culture Knowledge Graph
  • Getting Started with OpenAlex: Bibliometric analyses
  • Assembling Pipelines

Dazu zählen Anleitungen zu Netzwerkanalysen, an deren Ende Visualisierungen literarischer Strömungen bzw. der Adressat:innen in Ferdinand Gregorovius Briefedition stehen. Zudem wurden mehrere SPARQL-Tutorials entwickelt, unter anderem zur Erhebung des Geschlechts von Musiker:innen über WikiData. Die Presets demonstrieren die Funktionsweise von Facepager im Kontext sozial- und geisteswissenschaftlich einschlägiger Themenfelder und stellen Verbindungen zur Datenanalyse und Visualisierung her.

M3 Workflows

Zur Unterstützung komplexer Abfragen wurden folgende Funktionalitäten ergänzt:

  • SPARQL-Modul: SPARQL ist eine Sprache zur Abfrage von graphbasierten Datenbanken wie Wikidata oder den Culture Knowledge Graph. Facepager stellt nun ein Modul bereit, mit dem die Abfragen analog zu typischen Playground-Diensten erfasst werden können.
  • Pipelines-Feature: Durch die Aneinanderreihung von aufeinander aufbauenden Presets können mehrstufige Erhebungen durchgeführt werden. So werden beispielsweise Abfragen von HYDRA-kompatiblen APIs erleichtert (siehe Abbildung 2).
  • Triple-Parser: Linked Open Data wird in der Regel in RDF-kompatiblen Formaten bereitgestellt. Facepager unterstützt nun die Extraktion von Triples aus RDF/XML, JSON-LD sowie TTL.
Abbildung 2, Pipelines in Facepager

M4 Build

Wir haben Version 4.6.0 für Windows und für Mac veröffentlicht: https://github.com/strohne/Facepager/releases/tag/v4.6.0
In diesem Zuge wurden die Build-Workflows überarbeitet. Da die Notarisierung der Software für Mac weiterhin widerspenstig ist, bleibt es vorläufig beim alten Installationsprozess, der die explizite Freigabe von Berechtigungen erfordert.

Jakob Jünger und Lennart Höfig