Springe direkt zu Inhalt

Spotlight-Programm "Coptic Heritage Data for NLP"

Ziel des Projekts "Coptic Heritage Data for NLP" ist es, für die kultur- und religionsgeschichtlich bedeutsame koptische Sprache (mit ihren diversen historisch belegten Dialekten) Natural Language Processing Tools (Natural Language Processing = NLP) zu schaffen.
Durch solche Tools wird für das Koptische, die letzte Stufe der ägyptischen Sprache, eine Lücke zu den großen zeitgenössischen Mehrheitssprachen geschlossen, für die es längst hervorragende Modelle zur automatisierten Sprachverarbeitung gibt, die häufig (wie zuletzt ChatGPT) sogar ein Medienecho auslösen. Natural Language Processing ist die maschinelle, also computerbasierte und damit weitgehend automatisierte Verarbeitung natürlicher Sprache (in unserem Fall geschriebener Texte). Darunter fallen unter anderem das Aufspalten des fortlaufenden Texts in diskrete Elemente (Tokenisierung), die Standardisierung von Schreibweisen (Normalisierung), die Zuordnung dieser Elemente zu
Grundeinheiten (Lemmata) eines digitalen Wörterbuchs (Lemmatisierung) und die Anreicherung mit Informationen zur Wortart (Part-of-Speech Tagging) teilweise auch noch mit weitergehenden Informationen (wie grammatisches Geschlecht und Numerus für Substantive oder Verbklassen für Verben). Für das Koptische ist darüber hinaus die Annotation der Herkunftssprache (language-of-origin tagging) einzelner Lemmata von Bedeutung, da das Koptische in sprachgeschichtlich vergleichsweise kurzer Zeit sehr viele griechische Wörter entlehnt und integriert. Eine solche Aufbereitung der Texte ist für viele darauf aufbauende computationelle Methoden nötig . Sie ist aber auch erforderlich, um die Texte auf entsprechenden Plattformen einem breiten Publikum zur Verfügung zu stellen. Solche Plattformen gibt es für antike Texte im Allgemeinen . In beiden Fällen sollen sie altertumsinteressierten Laien und ggf. Gläubigen helfen, sich mit den Texten ihres Interesses auf hohem Niveau auseinanderzusetzen.

Als Heritage-Sprache, die von der christlichen ägyptischen Bevölkerung nicht mehr gesprochen wird, die aber Träger des Kulturerbes ist, ist es erforderlich, Koptisch im weltweiten akademischen und – insofern es die politische Situation zulässt – auch im nichtakademischen heimischen Kontext zu unterrichten. Annotierte Korpora bieten für den Sprachunterricht interessante Anwendungsmöglichkeiten.

Darüber hinaus haben auch verschiedene Wissenschaftsdisziplinen Interesse an einer Aufbereitung der Daten mit NLP-Tools. Zum einen sind sie notwendige Vorarbeit für die Verwendung höherrangiger analytischer Methoden, zum anderen werden sie durch die linguistischen Annotationen für sprachtypologische Arbeiten verwertbar. Dies ist nicht nur deshalb wichtig, damit das Ägyptische als eigener Zweig der afroasiatischen Sprachfamilie in solchen Arbeiten repräsentiert ist,
sondern auch für die Erforschung von Sprachwandelphänomenen besonders erfolgversprechend, weil das Ägyptische die am längsten belegte Sprache überhaupt ist (ca.2800 v. Chr. bis 1400 n. Chr.).

Mentoring
Tutoring