Forschungsarbeit: Tree Structured Function Estimation with Haar Wavelets

Tree Structured Function Estimation with Haar Wavelets

Forschungsergebnisse zur Informatik, Band 44

Hamburg 1999, 169 Seiten
ISBN 978-3-86064-884-1

Baumdarstellung, CART, Data Mining, Datenanalyse, Haarfunktion, Informatik, Kurvenschätzung, Orthogonalfunktion, Wavelets

Zum Inhalt

Baumstrukturierte Methoden sind ein sehr nützliches Werkzeug zur statistischen Analyse hochdimensionaler Daten. Baumdarstellungen sind in der Regel intuitiv, leicht anzuwenden und führen zu übersichtlichen Darstellungen komplexer Datenstrukturen. Zur Entdeckung von Strukturen in hochdimensionalen Datensätzen wie z.B. Interaktionseffekte zwischen Variablen, zum Modellieren funktionaler Abhängigkeiten und zur Diskriminanzanalyse haben sich baumstrukturierte Methoden als sehr hilfreich zur explorativen Datenanalyse erwiesen. Zur Bewältigung des immensen Rechenaufwandes verlangen sie den Einsatz von Computern. Seit der Implementierung des CART Algorithmus („Classification and Regression Trees“) durch Breiman, Friedman, Olshen und Stone 1984 finden sich Verfahren zur baumstrukturierten Regressions- und Klassifikationsanalyse in vielen Statistikpaketen. Die in den bisherigen Algorithmen implementierten Verfahren zur Herleitung von Baumdarstellungen basieren auf vielen `ad-hoc` Entscheidungen, es ermangelt ihnen aber an mathematischer Fundierung und Herleitung aus allgemeinen mathematischen Prinzipien.

Die Methoden sind zwar heuristisch plausibel und unter Anwendern, z.B. in Biostatistik und Sozialwissenschaften, auch beliebt, da recht plausibel ist, was mit den Daten bei der Herleitung von strukturellen Darstellungen durch Bäume geschieht. Den bisher vorgeschlagenen Ansätzen fehlt es aber an mathematischer Fundierung. Die entscheidende Idee des Buches ist die Feststellung, dass man sich baumstrukturierten Methoden wie CART mit einer ganz speziellen Klasse von Orthogonalfunktionen annähern kann: dem System der Haarfunktionen. Diese Äquivalenz zwischen bestimmten baumstrukturierten Verfahren und hochdimensionalen Kurvenschätzern, die auf dem orthogonalen System der Haarfunktionen basieren, erlaubt die Anwendung von Resultaten der abstrakten harmonischen Analysis, um Splitkriterien und Stopregeln für die Generierung von Bäumen herzuleiten. Dieses Buch ist somit ein Beitrag dazu, baumstrukturierte Verfahren wie CART auf eine mathematisch solide Basis zu stellen.

Als einfachste Klasse von Wavelets können Haarfunktionen innerhalb einer modernen mathematischen Theorie betrachtet werden, die in den letzten Jahren sehr viel Interesse in Statistik, Approximationstheorie und Signalverarbeitung gefunden hat. Haarreihenschätzer und somit auch baumstrukturierte Verfahren können somit im Licht jüngster Entwicklungen in Entscheidungstheorie und mathematischer Statistik betrachtet werden.



Informationen über das Veröffentlichen wissenschaftlicher Arbeiten.

nach oben