HMD 247, 43. Jahrgang, Februar 2006

Business & Competitive Intelligence

Extraktion, Qualitätssicherung und Klassifikation unstrukturierter Daten

Carsten Felden

Zusammenfassung

Die Informationsflut, die Entscheidungsträgern begegnet, lässt sich nur schwer bewältigen. Daher muss die Menge der Informationen vorher in interessante und uninteressante Informationen unterteilt werden, so dass Entscheidungsträgern anschließend lediglich die erstgenannten zugeführt werden. Dabei sind Maßnahmen zu ergreifen, um die mangelnde Datenqualität, insbesondere von Internetdokumenten, zu begrenzen. Zur Aufbereitung der Dokumente sind unterschiedliche Vorverarbeitungsschritte möglich. Beispielhaft werden Klassifikationsergebnisse verschiedener Algorithmen und Vorverarbeitungsschritte in diesem Beitrag vorgestellt. Dabei wird nicht nur die reine Klassifikationsgüte, sondern auch der benötigte Zeiteinsatz, der zur Erreichung dieser Ergebnisse notwendig ist, als wichtige Ergänzung betrachtet. Die Frage nach dem optimalen Einsatz der Vorverarbeitungsschritte und der Algorithmen kann nicht allgemein gültig beantwortet werden. Verschiedene Kombinationen sind im Zeitablauf wiederholt entsprechend Einsatz- und Rahmenbedingungen zu testen.

Inhaltsübersicht

  1. Problematik unstrukturierter Daten in der Praxis
    1. Informationseinordnung durch Textklassifikation
    2. Datenqualität
  2. Grundlagen der Klassifikation unstrukturierter Daten
    1. Vektorraummodell
    2. Gütekriterien des Information Retrieval
    3. Preprocessing zur Reduktion zu analysierender Terme
      1. Stemming
      2. Thesauren
      3. Termeleminierung
  3. Methoden und Beispiel zur Textklassifikation
  4. Ausblick
  5. Literatur