Interaktive Grammatikanalyse historischer Texte: Adaptive Annotationsverfahren zur Erschließung des Sprachausbaus im Mittelniederdeutschen

Project Period: 2017-01-01 – 2019-12-31
Externally Funded
Acronym
InterGramm
Principal Investigator
Michaela Geierhos, Eyke Hüllermeier, Doris Tophinke
Member
Marcel Dominik Wever, Sascha Henzgen
Description

Das empirische Forschungsvorhaben untersucht den Sprachausbau des Mittelniederdeutschen vom 13. Jahrhundert bis zum Schreibsprachenwechsel im 16./17. Jahrhundert, mit dem das Mittelniederdeutsche seine Geltung als Schriftsprache an das Frühneuhochdeutsche verliert. Es leistet damit einen Beitrag zur Rekonstruktion der bislang erst punktuell untersuchten grammatischen Entwicklung des Mittelniederdeutschen als historischer Schriftsprache. Die Untersuchung konzentriert sich auf städtische Rechtssatzungen, und zwar aus mehreren Gründen: Sprachliche Ausbauprozesse finden sich mutmaßlich gerade in der Rechtsschriftlichkeit, die komplexe Rechtssachverhalte in allen rechtsrelevanten Aspekten kontextentbunden explizieren muss. In Rechtssatzungen geht es dabei in einem alltagspraktischen Sinne stets um konditionale Sachverhaltsrelationen, so dass untersucht werden kann, wie sich die grammatische Konstruktion von Konditionalität im Untersuchungszeitraum wandelt. Schließlich sind Rechtssatzungen lokalisier- und datierbar, so dass sich die zeiträumliche Entwicklungsdynamik des Ausbaus nachzeichnen lässt. Entwickelt wird ein "interaktives" Verfahren, das maschinelles Lernen und Expertenfeedback kombiniert. Auf diese Weise soll ein zentrales Problem bestehender Annotationsverfahren für historische Texte gelöst werden. Existierende Parsing- und Tagging-Verfahren der Computer- bzw. Korpuslinguistik setzen statische (a priori definierte) Grammatiken bzw. grammatische Kategorien voraus, was der historischen Dynamik der Grammatik nicht gerecht wird. Eine sich diachron entwickelnde, dynamische Grammatik mittels regelbasierter Textanalyseverfahren und Methoden des maschinellen Lernens im Korpus zu "entdecken" und auf diese Weise den Sprachwandel evidenzbasiert zu rekonstruieren, ist ein Novum. Da dies gleichermaßen sprach-/grammatikhistorisches Wissen sowie Kenntnisse im Bereich der Computerlinguistik und Informatik voraussetzt, ist das Vorhaben als fächerübergreifendes Projekt konzipiert, das eine enge Kooperation der Fächer über den gesamten Förderzeitraum verlangt. Die empirische Basis bildet ein Korpus datier- und lokalisierbarer Rechtsverordnungen und Urteilsaufzeichnungen des 13. bis 17. Jahrhunderts. Es gliedert sich in zwei Subkorpora: Das "Subkorpus Mittelniederdeutsch" bildet das Hauptkorpus und enthält originär mittelniederdeutsche Texte von 1227 bis ca. 1650 im Umfang von ca. 1,2 Mio. Wörtern. Das "Subkorpus Frühneuhochdeutsch" umfasst eine Auswahl der ersten frühneuhochdeutschen Texte, die als Folge des Schreibsprachenwechsel im niederdeutschen Sprachraum entstehen (400.000 Wörter). Überprüft werden soll die These, dass diese Texte in grammatischer bzw. syntaktischer Hinsicht noch mittelniederdeutsch bestimmt sind.

Funding Organisation
Deutsche Forschungsgemeinschaft

9 Publications

2017 | Conference Paper | LibreCat-ID: 1158
Annotation Challenges for Reconstructing the Structural Elaboration of Middle Low German
N. Seemann, M.-L. Merten, M. Geierhos, D. Tophinke, E. Hüllermeier, in: Proceedings of the Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 2017, pp. 40–45.
LibreCat | DOI
 
2019 | Journal Article | LibreCat-ID: 17565
Grammatikwandel digital-kulturwissenschaftlich erforscht. Mittelniederdeutscher Sprachausbau im interdisziplinären Zugriff
M.-L. Merten, N. Seemann, M.D. Wever, Niederdeutsches Jahrbuch (2019) 124–146.
LibreCat
 
2020 | Preprint | LibreCat-ID: 17605 | OA
Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction
S.H. Heid, M.D. Wever, E. Hüllermeier, Journal of Data Mining and Digital Humanities (n.d.).
LibreCat | Download (ext.)
 
2019 | Conference Abstract | LibreCat-ID: 8529 | OA
UPB-Annotate: Ein maßgeschneidertes Toolkit für historische Texte
N. Seemann, M.-L. Merten, in: P. Sahle (Ed.), DHd 2019 Digital Humanities: multimedial & multimodal. Konferenzabstracts, Zenodo, Frankfurt am Main, Germany, 2019, pp. 352–353.
LibreCat | DOI | Download (ext.)
 
2018 | Conference Paper | LibreCat-ID: 4345
Analysing Constructional Change: Linguistic Annotation and Sources of Uncertainty
M.-L. Merten, N. Seemann, in: F.J. García-Peñalvo (Ed.), Proceedings of the 6th International Conference on Technological Ecosystems for Enhancing Multiculturality (TEEM’18), ACM, New York, NY, USA, 2018, pp. 819–825.
LibreCat | DOI | Download (ext.)
 
2018 | Conference Abstract | LibreCat-ID: 1379 | OA
Supporting the Cognitive Process in Annotation Tasks
N. Seemann, M. Geierhos, M.-L. Merten, D. Tophinke, M.D. Wever, E. Hüllermeier, in: K. Eckart, D. Schlechtweg (Eds.), Postersession Computerlinguistik der 40. Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft, 2018.
LibreCat | Files available | Download (ext.)
 
2019 | Journal Article | LibreCat-ID: 18155
Interaktive Analyse historischen Grammatikwandels. Konstruktionsgrammatik trifft auf machine learning
M.-L. Merten, D. Tophinke, Jahrbuch für Germanistische Sprachgeschichte 10 (1) (2019) 303–323.
LibreCat
 
2017 | Conference Paper | LibreCat-ID: 25246
Annotation Challenges for Reconstructing the Structural Elaboration of Middle Low German
N. Seemann, M.-L. Merten, M. Geierhos, D. Tophinke, E. Hüllermeier, in: Proceedings of the Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, Vancouver, Canada, 2017, pp. 40–45.
LibreCat
 
2023 | Journal Article | LibreCat-ID: 45673
Annotation uncertainty in the context of grammatical change
M.-L. Merten, M. Wever, D. Tophinke, M. Geierhos, E. Hüllermeier, International Journal of Corpus Linguistics (2023).
LibreCat | DOI