Werkzeugunterstützung für die automatische Extraktion von Tabellendaten aus historischen Zeitschriften

Swinemünder Bade-Anzeiger (Quelle: www.digitale-bibliothek-mv.de)

Qualitative und quantitative Datenanalysen setzen in allen Fachdisziplinen eine strukturierte Datenbasis voraus. Textuelle Daten, wie sie zum Beispiel in Zeitungen vorkommen, sind häufig mit zusätzlichen Tabellendaten versehen, um Informationen in strukturierter Weise kommunizieren zu können. Dabei wirken solche Tabellen auf den ersten Blick strukturiert, sind aber in den meisten Fällen als semi- bzw. unstrukturiert zu betrachten, da es oft nicht möglich ist, gezielt auf einzelne Elemente des Datensatzes zuzugreifen.

Im Rahmen dieses Projektes soll untersucht werden, inwieweit sich existierende Lösungen zur Tabellenextraktion auf historische Zeitschriften anwenden lassen. Ziel ist es, eine Toolchain zu entwickeln, die es in reproduzierbarer Weise erlaubt, Tabellen mit Personendaten anhand der historischen Zeitschrift „Swinemünder Badeanzeiger“ zu extrahieren und aufzubereiten, um als Datenbasis für nachgestellte Analyse eingesetzt zu werden.


zurück zur Übersicht