HMD 271, 47. Jahrgang, Februar 2010

Web 3.0 & Semantic Web

Herausgeber: Urs Hengartner, Andreas Meier

Wie man mit der Wikipedia semantische Verfahren verbessern kann

Stephan Gillmeier, Urs Hengartner, Sandro Pedrazzini

Zusammenfassung

Das automatische Zuweisen von Themengebieten zu beliebigen Dokumenten ist eine der anspruchsvollsten Aufgaben in der Computerlinguistik. Um dies technisch überhaupt bewerkstelligen zu können, setzt es ein gewisses "Verständnis" eines Textes voraus. Üblicherweise werden bei solchen Verfahren große - von Hand erstellte - thematisch vorsortierte Datenbanken benutzt. In dieser Arbeit wird zusammen mit statistischen Datenanalysen die "Datenbank" Wikipedia verwendet, um mit ihren semantischen Strukturen automatisch passende Themen von Dokumenten zu identifizieren und anschließend zuzuordnen. Darüber hinaus wird mit einem weiteren Verfahren gezeigt, wie das Auffinden ähnlicher Dokumente verbessert werden kann.

Inhaltsübersicht

  1. Automatische Zuordnung von Themen
  2. Nutzen der Wikipedia-Strukturen
  3. WMTrans-Produkte
    1. WMTrans-Technologie
    2. Produktbereiche
    3. Der WMTrans-Lemmatizer
  4. TF-IDF
  5. Semantische Kategorisierung und themenbasierte Verschlagwortung von Dokumenten mit der Wikipedia
    1. Das Auffinden ähnlicher Dokumente
    2. Automatisches Kategorisieren von Dokumenten
  6. Schlussbetrachtung und Ausblick
  7. Literatur