HMD 268, 46. Jahrgang, August 2009

Web & Data Mining

Herausgeber: Matthias Knoll, Andreas Meier

Kostensensitive Klassifikation mit Random Forest

Eine Untersuchung zum Potenzial erweiterter Entscheidungsbaumverfahren

Stefan Lessmann, Sebastian Schüller, Stefan Voß

Zusammenfassung

Entscheidungsbaumverfahren repräsentieren einen etablierten Ansatz zur Erstellung von Klassifikationsmodellen, mit deren Hilfe verschiedene Planungs- und Entscheidungsprobleme unterstützt werden können. In der Literatur finden sich zahlreiche Vorschläge für erweiterte Entscheidungsbaumverfahren, wobei der sogenannte Random-Forest-Algorithmus als besonders leistungsfähig angesehen werden kann. Ein konstituierendes Merkmal betrieblicher Klassifikationsprobleme besteht allerdings darin, dass fehlerhafte Prognosen mit unterschiedlichen Kosten assoziiert sind. Deswegen soll die Eignung von Random Forest zur kostensensitiven Klassifikation in der vorliegenden Arbeit genauer untersucht werden. In diesem Rahmen wird der Grenznutzen algorithmischer Modifikationen gegenüber dem ursprünglichen Entscheidungsbaumprinzip erhoben, um die Effizienz einer konkreten Erweiterung kritisch zu beleuchten. Der Untersuchungsansatz soll damit auch allgemeine Hinweise geben, wie der zu erwartende Nutzen aus einer Implementierung von erweiterten Entscheidungsbaumverfahren geeignet quantifiziert werden kann.

Inhaltsübersicht

  1. Erweiterte Entscheidungsbaumverfahren
  2. Ansätze zur kostensensitiven Klassifikation
    1. Random Forest
    2. MetaCost
  3. Empirische Untersuchung
    1. Datenbasis
    2. Experimentdesign
    3. Ergebnisse und Diskussion
  4. Einbezug ökonomischer Randbedingungen
  5. Literatur