HMD 222, 38. Jahrgang, Dezember 2001

Business Intelligence

Text Mining: Grundlagen, Verfahren und Anwendungen

Peter Gerstl, Matthias Hertweck, Birgit Kuhn

Zusammenfassung

Im Zuge der zunehmenden elektronischen Speicherung von unstrukturierten Daten wird der Zugriff auf die richtigen Informationen zur richtigen Zeit immer bedeutsamer. Text Mining stellt dabei eine Schlüsseltechnologie dar, die Benutzern durch Automatisierung von Informationsextraktion und -analyse schnellen Zugang zu relevanter Information ermöglicht. Eine der großen Herausforderungen im Text Mining besteht darin, Information, die sprachlich wiedergegeben ist, explizit zu machen, um sie für die maschinelle Analyse zu erschließen. Im Text Mining werden, abhängig von der zu lösenden Aufgabe, Kombinationen heuristischer und linguistischer Verfahren eingesetzt, die in der Lage sind, mit der Vielfalt sprachlicher Ausdrucksmöglichkeiten umzugehen, ohne eine tief gehende Analyse der sprachlichen Strukturen zu leisten.

Dieser Artikel stellt die Grundlagen und Verfahren von Text Mining vor, wobei vertiefend auf verschiedene Technologien zur Inhaltsanalyse eingegangen wird, die den Weg ebnen für eine linguistisch adäquate Vorverarbeitung der Texte. Zu den Verfahren zählen die Merkmalsextraktion, Kategorisierung, Clustering und automatische Ermittlung der Sprache eines Dokuments. Text Mining findet in unterschiedlichen Aufgabengebieten Anwendung, beispielsweise bei der Extraktion relevanter Information aus Dokumenten, bei der Klassifikation von Dokumenteninhalten und bei der automatischen Ermittlung thematischer Ähnlichkeiten in Dokumentenkollektionen.

Inhaltsübersicht

  1. Grundlagen
  2. Aufgabengebiete und zugehörige Verfahren
    1. Erschließung des Dokumenteninhalts
    2. Klassifikation von Dokumenteninhalten
    3. Strukturermittlung in Dokumentenkollektionen
  3. Einsatzgebiete und Anwendungsbeispiele
    1. Text Mining in der Finanzdienstleistungsbranche
    2. Einsatz von Text Mining zur Patentanalyse
    3. Automatische Klassifikation von Zeitungsartikeln (Information Broker)
  4. Literatur