Man nehme einen digital(isiert)en Text, bereite ihn mit Natural Language Processing auf oder versehe ihn mit einem
auf die Forschungsfrage zugeschnittenen Mark-up und führe dann eine Analyse mit der für die Methode üblichen
Software durch. So in etwa könnte das Grundrezept für digitalbasierte Textforschung klingen, bevor die Forschenden
die analysierten Daten interpretieren. Doch deckt dies die gesamte Bandbreite der digitalen Textforschung ab?
In Disziplinen, die mit historischem Material arbeiten, gestaltet sich der Workflow häufig komplexer und gliedert
sich auf in viele einzelne in sich wiederum komplexe Arbeitsschritte. Diese Komplexität resultiert aus der fortwährenden Knappheit digitaler Ressourcen, sowohl in Bezug auf Daten als auch auf geeignete Softwarelösungen und
beinhaltet daher oft auch das Erstellen eigener Kernkomponenten wie OCR- oder NLP-Modellen.
Der Vortrag wird am Beispiel spätantiker Texte aus Ägypten in koptischer Sprache zeigen, wie sich der Arbeitsprozess
aufgliedert und verschachtelt, wenn das untersuchte Textkorpus weder digital vorliegt, noch OCR- und NLP-
Tools mit ausreichender Genauigkeit zur Verfügung stehen. Infolge der zu diskutierenden Ressourcenknappheit
sind Forschende in den digitalen Altertumswissenschafen herausgefordert, neben ihrer Fachkenntnis (domain
knowledge) auch grundlegende Kenntnisse und praktische Fähigkeiten nicht nur in analytischen Methoden der Digital
Humanities zu erwerben, sondern auch für die Entwicklung eigener Tools/Ressourcen. Dies ist notwendig, um
Methoden der Datenvorverarbeitung und -analyse in der computationellen Textforschung für antikes und anderes
historisches Material zu adaptieren.
Time & Location
Jul 13, 2023 | 02:00 PM c.t.
Freie Universität Berlin
Seminarzentrum, Raum L 116
Otto-von-Simson-Straße 26
14195 Berlin