Arten des maschinellen Lernens am Beispiel der Spam-Analyse: Teil 2
In Teil 1 des Artikels wurde das Thema des maschinellen Lernens anhand des Anwendungsbeispiels der Spam-Analyse zusammen mit den ersten drei Arten des maschinellen Lernens – überwachtes, bestärkendes und unüberwachtes Lernen – vorgestellt. Im folgenden Teil 2 werden die beiden anderen Arten des maschinellen Lernens thematisiert.
Arten des maschinellen Lernens: Semi-überwachtes Lernen
Semi-überwachtes Lernen kombiniert Elemente des überwachten und unüberwachten Lernens, indem es sowohl markierte als auch unmarkierte Daten im Trainingsprozess verwendet. Bei der Spam-Erkennung beginnt man typischerweise mit einem kleinen Datensatz von markierten E-Mails, die als Spam oder Nicht-Spam klassifiziert sind, um eine grundlegende Aussage zur Unterscheidung zwischen diesen Kategorien zu erlangen. Anschließend wird dieser Datensatz um unmarkierte E-Mails erweitert, die auf Basis der zuvor entwickelten Unterscheidungskriterien klassifiziert werden.
In einem weiteren Schritt findet ein Selbsttraining statt, bei dem die unmarkierten E-Mails, die mit hoher Wahrscheinlichkeit korrekt klassifiziert wurden, als richtig angenommen und den markierten Daten hinzugefügt werden. Dieser Prozess wird so lange wiederholt, bis das Modell eine zufriedenstellende Genauigkeit erreicht hat.
Die Spam-Funktionalität der iQ.Suite – der E-Mail-Lösung für Sicherheit und Produktivität von GBS – nutzt die auf maschinellem Lernen basierende CORE – Content Recognition Engine für herausragende Ergebnisse. Sie kombiniert verschiedene Analysemethoden zur E-Mail-Klassifizierung und ermöglicht so die Verbesserung von Geschäftsprozessen wie Response-Management, Customer Support und Kommunikation.
Die Herausforderung bei diesem Ansatz besteht darin, eine sorgfältige Überwachung des Lernprozesses und der Modellleistung zu integrieren. Semi-überwachtes Lernen wird oft angewendet, wenn das Sammeln umfangreicher markierter Datensätze teuer oder zeitaufwändig ist, aber große Mengen unmarkierter Daten leicht verfügbar sind. In der Abbildung 1 ist das semi-überwachte Lernen veranschaulicht.
Abbildung 1: Semi-überwachtes Lernen (In Anlehnung an Trabold, D., LAMARR-Institut für Maschinelles Lernen und Künstliche Intelligenz, 2021)
Arten des maschinellen Lernens: Aktives Lernen
Eine weitere Art des maschinellen Lernens ist das aktive Lernen, bei dem der Algorithmus aus einem Pool zuvor nicht klassifizierter Daten auswählt, welche Teilmenge von Beispielen er als nächstes kennzeichnen will. Der Prozess beginnt mit einem kleinen initialen Set von markierten E-Mail-Daten, die zum Trainieren des Grundmodells verwendet werden. Dieses Modell wird nun auf einen großen Pool von unmarkierten E-Mails angewendet, um diejenigen zu identifizieren, deren Klassifizierung am unsichersten ist. Diese E-Mails werden von einem Experten (z. B. von einem Menschen) als Spam oder Nicht-Spam klassifiziert. Die neu markierten E-Mails werden dem Trainingsdatensatz hinzugefügt, wodurch das Modell weitere Informationen erhält, die es zum Lernen nutzen kann. Dieser Zyklus aus Vorhersage, Auswahl, Markierung und Hinzufügen wird wiederholt, bis eine zufriedenstellende Modellleistung erreicht ist. Das aktive Lernen ist besonders sinnvoll, wenn es nur eine geringe Anzahl an markierten Daten gibt oder es teuer ist, die markierten Daten zu erlangen. Das aktive Lernen wählt gezielt diejenigen unmarkierten Datenpunkte aus, die voraussichtlich die Leistung des Modells am meisten verbessern.
Abbildung 2: Aktives Lernen (In Anlehnung an Beckh, K. LAMARR-Institut für Maschinelles Lernen und Künstliche Intelligenz, 2021)
Eignung des maschinellen Lernens für die Spam-Erkennung
Welche Methode des maschinellen Lernens für die Spam-Erkennung angewendet wird, hängt von verschiedenen Faktoren ab. Dazu gehören die Verfügbarkeit markierter Daten, die Dynamik der Spam-Muster und die Ressourcen für das Training sowie die Wartung der Modelle. Im Allgemeinen liegen bei der Spam-Erkennung große Mengen markierter Daten vor. Wenn jedoch ein System neu aufgebaut werden muss und kein Rückgriff auf vorhandene Datensätze möglich ist, kann es vorkommen, dass nur wenige E-Mails klassifiziert sind. Die Spam-Muster sind größtenteils ähnlich, auch wenn immer wieder neue Muster hinzugefügt werden. Die Anforderungen an die Ressourcen für das Training fallen normalerweise hoch aus, da täglich viele neue E-Mails hinzukommen, die bewertet werden müssen. Zusammenfassend lässt sich folgende Eignung der Methoden in Bezug auf die Spam-Erkennung aufführen:
-
Überwachtes Lernen: sehr hohe Eignung
Das überwachte Lernen eignet sich für die Spam-Erkennung von E-Mails am besten. Dieses basiert auf einen großen Datensatz von E-Mails, die bereits als Spam oder Nicht-Spam markiert sind. Eine Stärke des überwachten Lernens liegt darin, dass es komplexe Muster und Beziehungen in den Daten erkennen kann. Daher passt es ideal für die Spam-Erkennung, bei der sich Merkmale und Muster kontinuierlich verändern.
-
Semi-überwachtes Lernen: hohe Eignung
Das semi-überwachte Lernen erweist sich insbesondere dann als nützlich, wenn nicht ausreichend markierte Daten zur Verfügung stehen. Dies kommt bei der Spam-Erkennung oftmals vor, da das manuelle Markieren von E-Mails als Spam oder Nicht-Spam aufwendig ist. Indem unmarkierte Daten in den Trainingsprozess einbezogen werden, kann das semi-überwachte Lernen effektiver als ein überwachtes Lernen sein, insbesondere wenn sich die Spam-Muster schnell ändern.
-
Aktives Lernen: moderate bis hohe Eignung
Das aktive Lernen ist besonders sinnvoll, wenn die Markierung von Daten teuer und zeitaufwändig ist. Es ermöglicht eine effiziente Nutzung von Ressourcen, indem es gezielt jene Daten für die Markierung auswählt, die den größten Nutzen für das Modell bieten. Aktives Lernen lohnt sich daher besonders in dynamischen Umgebungen, wo ständig neue Arten von Spam auftreten.
-
Unüberwachtes Lernen: moderate Eignung
Mit dem unüberwachten Lernen können unbekannte Muster in E-Mail-Daten erkannt werden, insbesondere wenn keine markierten Daten verfügbar sind. Mit Hilfe von Clustering können neuartige Spam-Techniken identifiziert werden. Allerdings kann es im Vergleich zu den überwachten Methoden schwieriger sein, die Genauigkeit und Zuverlässigkeit der Ergebnisse zu bewerten.
-
Bestärktes Lernen: geringe bis moderate Eignung
Das bestärkte Lernen ist komplexer in der Implementierung und Optimierung, da es auf einem Belohnungssystem basiert, das auf das Erreichen bestimmter Ziele ausgerichtet ist. Ein typisches Beispiel hierfür ist eine Maximierung der korrekten Spam-Erkennung bei gleichzeitiger Minimierung der Falsch-Positiven zu erreichen.
Im nächsten Teil der Blog-Reihe über künstliche Intelligenz beim E-Mail-Management nehmen die GBS-Experten das Deep Learning (Tiefes Lernen) unter die Lupe. Das Deep Learning ist eine Lernmethode des maschinellen Lernens, um komplexe Muster in großen Datenmengen zu lernen und zu modellieren. Es kann bei allen hier vorgestellten Arten des maschinellen Lernens angewendet werden.
Autoren: Dr. Rolf Kremer & Dirk Nolte