Wissen aus Daten
Beratung großer Firmen in Sachen Data Mining
Fuzzy Logic im New Beetle Diese Meldung der New York Times ist für Fachleute wenig überraschend, da das vom Braunschweiger TU-Absolventen Rainer Petersen entwickelte fuzzy-basierte Automatikgetriebe (AG4) bereits im VW-Passat erfolgreich eingesetzt wird und nun auch für den Käfer-Nachfolger erhältlich ist.
Durch die Kopplung von Fuzzy-Systemen mit Lernverfahren aus anderen Forschungsgebieten lassen sich effizient Systeme entwickeln, die aus Datenbeständen automatisch neues Wissen ableiten können. Prof. Dr. Rudolf Kruse hat sich in seiner Zeit als Professor für Informatik an der TU Braunschweig in Zusammenarbeit mit der Volkswagen AG intensiv mit der wissenschaftlichen Fundierung von Fuzzy-Systemen befaßt.
Künstliche Neuronale Netze
Ursprünglich wurden (Künstliche) Neuronale Netze als stark vereinfachte und generalisierte mathematische Modelle von Netzen aus Nervenzellen im Gehirn konzipiert. Diese Modelle werden mittlerweile wegen einiger aus Sicht der Informatik vorteilhafter Eigenschaften, z.B. Lernfähigkeit, verteilte Speicherung, parallele Informationsverarbeitung, in den verschiedensten technischen Anwendungen eingesetzt. Integriert man die für Künstliche Neuronale Netze verwendeten Lernverfahren in Fuzzy-Systeme, so erhält man sogenannte Neuro-Fuzzy-Systeme. Diese kann man dazu verwenden, (interpretierbare) Fuzzy-Systeme aus Daten zu "erlernen" und zu optimieren.
Mittlerweile werden Fuzzy-Regelungen wegen ihrer Einfachheit routinemäßig in der Industrie eingesetzt. Fuzzy steht für vage, verschwommen, unscharf – eine Größe, die keinen exakten Wert repräsentiert, sondern verschiedene Werte, die dieser Größe mehr oder weniger gut entsprechen können. Aus der Umgangssprache kennen wir unscharfe Begriffe wie "ungefähr", "eine Prise", "ein wenig" oder "etwas". Zur Realisierung des erwähnten Fuzzy-Automatikgetriebes wurden nur sieben unscharfe Regeln benötigt, die jedoch in mühsamer Fleißarbeit aus umfangreichem Datenmaterial über Testfahrten verschiedener Fahrer und Vorwissen über das Fahrverhalten gewonnen werden mußten. Es stellt sich daher die Frage, ob Wissen auch automatisch aus Daten gewonnen werden kann.
Die automatische Ableitung neuen Wissens (z.B. in Form von Fuzzy-Regeln) aus umfangreichen Datenbeständen wird plakativ als Data Mining bezeichnet. Da sich Neuro-Fuzzy-Systeme dazu sehr gut eignen, bearbeitet unsere Arbeitsgruppe unter Leitung von Prof. Kruse seit seinem Wechsel auf den Lehrstuhl für Praktische Informatik an die Universität Magdeburg im Jahr 1996 überwiegend dieses Thema. So haben wir für die Firma MIT Aachen neue Algorithmen zur Fuzzy-Clusteranalyse in das Datenanalyseprogramm DATA ENGINE integriert und unter anderem für einen großen deutschen Versicherungskonzern bei Problemen der Stornoprognose, des Cross-Sellings und der Kundengruppierung genutzt. Die Fuzzy-Clusteranalyse teilt einen gegebenen Datensatz in sich überlappende Klassen oder Cluster ein, in denen die Daten möglichst einheitlich sind, und kann ebenso wie Neuro-Fuzzy-Systeme zur Erzeugung von Fuzzy-Regeln dienen. In diesem Zusammenhang beraten wir auch Firmen wie die SAP AG bei der Umsetzung von Data Mining. In den im Wiley-Verlag erschienenen aktuellen Büchern unserer Gruppe zu Fuzzy Clustering und Neuro-Fuzzy Systems werden diese neuen Methoden wissenschaftlich untermauert.
Die von der Gruppe entwickelten Methoden werden in der von der EU geförderten ESPRIT IV Working Group FUSION genutzt, in der die Kombination teilweise widersprüchlicher, ungleicher Informationsquellen unterschiedlicher Zuverlässigkeit untersucht wird. Einige Ergebnisse wurden bereits von dem Braunschweiger Informatik-Absolventen Stefan Siekmann, der jetzt Doktorand an der Universität Magdeburg ist, in das SIEMENS-Tool SENN integriert, das unter anderem zur DAX-Prognose eingesetzt wird. Dafür erhielt er den SAVE-Preis 1997 für die beste Diplomarbeit. Die von unserer Gruppe in Magdeburg entwickelten Algorithmen zum Erlernen von Assoziationsregeln, Entscheidungsbäumen, Bayesschen Netzen und Possibilistischen Graphischen Modellen werden mittlerweile auch bei Daimler-Chrysler genutzt. Dort wird konzernweit das Data-Mining-Programm CLEMENTINE eingesetzt, für das Rudolf Kruses Arbeitsgruppe spezielle Erweiterungen (Plug-In's) geschrieben hat. In der Industrie besteht derzeit ein erheblicher Bedarf an Absolventen auf dem Gebiet Data Mining.