Doktorarbeit: Wortformerkennung des Bulgarischen

Wortformerkennung des Bulgarischen

Morphologische Analyse auf Basis einer formalen Grammatik

Mit CD-ROM

PHILOLOGIA – Sprachwissenschaftliche Forschungsergebnisse, Band 150

Hamburg 2010, 382 Seiten
ISBN 978-3-8300-5318-7 (Print & eBook)

Automatische Sprachanalyse, Balkansprachen, Bulgarisch, Bulgaristik, Computerlinguistik, Formale Grammatik, Informatik, Linguistik, Linguistische Datenverarbeitung, Malaga, Morphologie, Programmiersprache, Slavistik, Spracherkennung, Sprachwissenschaft

Zum Inhalt

Die automatisierte Wortformerkennung des Bulgarischen in ihrer computerlinguistischen Implementierung sowie ihre theoretischen Grundlagen sind Untersuchungsgegenstand dieses Buchs. Auf der beiliegenden CD wird eine Software zur automatisierten Wortformerkennung des Bulgarischen zur Verfügung gestellt.

Die Software zur Wortformerkennung ist die erste ihrer Art: Sie analysiert Wortformen der Simplizia, Derivata und Komposita anhand eines Lexikons mit 26 620 Grundformen von Simplizia. Die automatische morphologische Analyse beruht auf dem Prinzip der möglichen Fortsetzungen und arbeitet linksassoziativ. Die Wortformanalyse umfasst die Lemmatisierung, Kategorisierung und Segmentierung selbst unbekannter Wortformen. Die Analyse von Wortformen erscheint als Text und grafische Baumstruktur.

Bislang fehlte im bulgarischen sprachwissenschaftlichen Diskurs eine formale Beschreibung des Bulgarischen, die sich für eine computergestützte Implementierung der Morphologie eignet. Das Programm ist eine Schnittstelle zwischen der traditionellen und der formalen Grammatik. Es vereinigt die Implementierungslogik mit der grammatischen Korrektheit des Bulgarischen, indem eine neue formale Morphologie des Bulgarischen entwickelt wurde. Diese neue Morphologie dient der Implementierung der automatisierten Wortformerkennung.

Die formale morphologische Klassifikation funktioniert distinktiv und verarbeitet Allomorphie und Flexion in getrennten Prozessen. Zur Beschreibung der Flexion synthetischer Wortformen wurden 89 Kombinationsklassen definiert. Die Allomorphie-Phänomene im Bulgarischen werden anhand von 170 Allomorphmustern (davon 59 mit Allomorphklassen) gefasst. Das Analyselexikon sowie die Regeln der Wortformerkennungssoftware besitzen grammatische Transparenz und eine für eventuelle Erweiterungen offene Struktur. Die mitgelieferte Software zur Wortformerkennung bildet gleichzeitig die Prozesse der Wortform- und Wortbildung nach. Die eingesetzte Allomorph-Methode ermöglicht eine Segmentierung der Wortformen in Allomorphe und die Berechnung des Allomorphie-Quotienten im Bulgarischen. Ebenso lässt sich mit dem Programm die Anzahl der Allomorphe der analysierten bulgarischen Wortformen ermitteln.

Die Wortformerkennungssoftware hat viele Einsatzmöglichkeiten und ein großes Erweiterungspotenzial. Sie liefert die Grundlage z. B. für die Erstellung spezieller Lexika wie eines Allomorphlexikons oder eines Lexikons der Paradigmen. Damit leistet die Software einen wertvollen Beitrag zur Erweiterung der bulgarischen Computerlexikographie. Zudem kann sie als Lernsoftware im Fremdsprachunterricht eingesetzt werden. Die interdisziplinäre Betrachtung vieler problematischer morphologischer Aspekte führt zur interessanten Anregungen und implementierungsbedingten Lösungen mit innovativem Charakter.



Informationen über das Veröffentlichen wissenschaftlicher Arbeiten.

nach oben