Doktorarbeit: Auflösung von Anaphern im Rahmen der Informationsextraktion für Ontologie-Management im Bereich Life Sciences

Auflösung von Anaphern im Rahmen der Informationsextraktion für Ontologie-Management im Bereich Life Sciences

Forschungsergebnisse zur Informatik, Band 65

Hamburg 2010, 252 Seiten
ISBN 978-3-8300-4803-9 (Print & eBook)

Anaphern, Anaphernresolution, BIO2Me, Bioinformatik, Computerlinguistik, Informatik, Informationsextraktion, Informationsverarbeitung, Informationswissenschaft, Life Sciences, MARS, Ontologien, Ruslan Mitkov, Sprachwissenschaft, Wissensmanagement

Zum Inhalt

Im Bereich Life Sciences spielt die maschinelle Extraktion und strukturierte Speicherung von Informationen in Ontologien eine zunehmend wichtige Rolle. Zur Gewährleistung einer guten Informationsextraktion (IE) müssen Anaphern korrekt aufgelöst werden.

Im Rahmen dieser Studie wird untersucht, inwiefern der vollautomatische, wissensarme Ansatz von [Mitkov et al. 2002] (MARS) zur Anaphernauflösung für die Domäne Life Sciences im Rahmen der Informationsextraktion für das Ontologie-Management adaptierbar ist. Zunächst wird eine Einführung in die linguistischen Grundlagen der Anaphorik und eine Einführung zu Ontologien gegeben. Exemplarisch wird das Forschungsprojekt Ontoverse und die in diesem Rahmen entwickelten Informationsextraktions-Methoden zum Aufbau und zur Pflege der Prototyp-Ontologie BIO2Me aus dem Bereich Bioinformatik vorgestellt.

Zur Beantwortung der Forschungsfrage wurde auf Basis des Algorithmus von MARS das in Ontoverse integrierbare Java-basierte System AnOnto entwickelt. Entscheidende Unterschiede zum Basissystem liegen neben der Implementierungstechnik vor allem in der Methodik der Vorverarbeitung. Die im Rahmen des Ontologie-Management zu verarbeitenden wissenschaftlichen Texte liegen ursprünglich nicht in reinem Textformat, sondern meist als PDF vorliegen und müssen zunächst konvertiert werden. Die Folgen der Konvertierungsprobleme spielen hinsichtlich der Adaptierbarkeit der Indikatoren eine große Rolle. Der Einsatz eines anderen Parsers (Machinese Semantics der Firma Connexor) als im Basissystem, macht die Entwicklung von Methoden und Strategien zur Extraktion von linguistisch relevanten Einheiten - wie z.B. Nominalphrasen und Präpositionalphrasen - notwendig. Die Untersuchung zeigt darüber hinaus, dass entscheidende Modifikationen vor allem hinsichtlich der domänenspezifischen Indikatoren wie Domain Verbs oder Term Preference erforderlich sind. Zur korpusspezifischen automatischen Anpassung dieser Indikatoren wurden spezielle Tools entwickelt und in AnOnto integriert.

Korpusgrundlage für die Evaluation des Systems AnOnto sind, exemplarisch für die Domäne Life Sciences, 15 vollständige englische wissenschaftliche Texten aus der Domäne Bioinformatik. Es werden ausschließlich pronominale Anaphern in Form von it aufgelöst.

Die Ergebnisse zeigen deutlich, dass die Adaption des vollautomatischen wissensarmen Systems [Mitkov et al. 2002] für die Domäne Life Sciences möglich ist. Die Vergleichbarkeit von Systemen untereinander ist aufgrund unterschiedlicher Zielsetzungen, Testkorpora, Präprozessierung und verwendeter Strategien zwar nur eingeschränkt möglich. Die Erfolgsrate von AnOnto von 65,8% ist jedoch grundsätzlich als sehr gut zu bewerten. Der Einsatz des im Rahmen dieses Buches entwickelten Systems bietet eine gute Alternative zu wissensreichen Ansätzen, deren Integration immer mit großem Aufwand verbunden ist. AnOnto hingegen kann auch von Nicht-Computerlinguisten einfach angepasst und zur Unterstützung der IE im Rahmen des Ontologie-Management eingesetzt werden.

Durch die entwickelten Tools zur Korpusanalyse und das universelle Format der Ergebnisdateien ist der Einsatz von AnOnto auch in anderen Bereichen, in denen Anaphernauflösung eine Rolle spielt, wie z.B. der Maschinellen Übersetzung, denkbar.



Informationen über das Veröffentlichen wissenschaftlicher Arbeiten.

nach oben