Arten des maschinellen Lernens am Beispiel der Spam-Analyse: Teil 1
In den ersten beiden Artikeln unserer Serie über KI-Erkennung, Mensch oder Maschine? Zwischen echten und KI-generierten Inhalte unterscheiden und GBS testet die beliebtesten Tools für die KI-Erkennung haben wir bereits Methoden und Werkzeuge vorgestellt, mit denen analysiert werden kann, ob (Text-)Inhalte von einem Menschen oder einem KI-basierten System erstellt wurden. In diesem Artikel widmet sich nun Dr. Rolf Kremer, R&D Manager bei GBS, mit Dirk Nolte, Solution Architect, den verschiedenen Arten des maschinellen Lernens (ML), einer durchaus spannenden Kategorie der künstlichen Intelligenz (KI). Anhand des Beispiels der Spam-Analyse von E-Mails wird die Anwendung des maschinellen Lernens veranschaulicht und untersucht, wie ML-Techniken erkennen, ob eine E-Mail als Spam klassifiziert werden sollte oder sicher an den Posteingang zugestellt werden kann.
Die Spam-Funktionalität der iQ.Suite – der E-Mail-Lösung für Sicherheit und Produktivität von GBS – nutzt die auf maschinellem Lernen basierende CORE – Content Recognition Engine für herausragende Ergebnisse. Sie kombiniert verschiedene Analysemethoden zur E-Mail-Klassifizierung und ermöglicht so die Verbesserung von Geschäftsprozessen wie Response-Management, Customer Support und Kommunikation.
Arten des maschinellen Lernens
Im Allgemeinen wird beim maschinellen Lernen anhand eines Datensatzes (Trainingsdaten) ein Modell generiert, welches im Beispiel der Spam-Analyse unterscheiden kann, ob eine E-Mail als Spam oder als Nicht-Spam klassifiziert wird. Diese Daten werden als markiert (Spam, Nicht-Spam) bezeichnet. Alle Daten, bei denen keine Klassifizierung vorgenommen wurde, werden als unmarkierte Daten bezeichnet. Je nach Art des maschinellen Lernens, kann der Output, d. h. die Vorhersage oder Erkennung, anschließend bewertet und die Trainingsdaten erweitert werden (vergleiche Abbildung 1). Die verschiedenen Formen des maschinellen Lernens lassen sich in überwachtes Lernen, semi-überwachtes Lernen, unüberwachtes Lernen, bestärkendes Lernen und aktives Lernen unterteilen.
Abbildung 1: Maschinelles Lernen (In Anlehnung an Trabold, D., LAMARR-Institut für Maschinelles Lernen und Künstliche Intelligenz, 2021)
Arten des maschinellen Lernens: Überwachtes Lernen
Das überwachte Lernen wird meistens für Klassifikationsverfahren verwendet, bei denen das System aus Beispielen lernt. Bezogen auf die Spam-Erkennung sind die vorhandenen E-Mails bereits in den Kategorien „Spam“ und „Kein Spam“ eingeteilt. Jede neu eingehende E-Mail wird auf bestimmte Merkmale geprüft, z.B. ob sie von einer Absender-Adresse kommt oder ein bestimmtes Wort enthält, die E-Mails als Spam klassifizieren. Wenn diese Merkmale vorliegen, wird die E-Mail auch der Kategorie „Spam“ zugeordnet. Entdeckt der Anwender eine E-Mail in einem Postfach, die er als Spam erkennt, kann er diese E-Mail als solche melden und das System kann dadurch weiter lernen. In der Abbildung 2 ist das überwachte Lernen schematisch veranschaulicht.
Abbildung 2: Überwachtes Lernen (In Anlehnung an Trabold, D., LAMARR-Institut für Maschinelles Lernen und Künstliche Intelligenz, 2021)
Arten des maschinellen Lernens: Unüberwachtes Lernen
Beim unüberwachten Lernen versucht das System selbständig Muster und Zusammenhänge in Daten erkennen, ohne dabei Beispiele zu haben, an denen es sich orientieren kann. Bezogen auf die Spam-Erkennung können die E-Mails in Cluster eingeteilt werden, die auf ihrer Ähnlichkeit basieren. Ziel ist es, E-Mails so zu gruppieren, dass die E-Mails innerhalb eines Clusters einander ähnlicher sind als jene in anderen Clustern. Bei der Spam-Erkennung können solche Ähnlichkeiten auf verschiedenen Merkmalen wie Textinhalt, Absenderadresse, Anrede, Personennamen, Grußformel, Betreffzeilen, Nutzung von HTML, Links und Anhängen basieren. Beispielsweise können damit E-Mails mit einer namenlosen Anrede als Spam klassifiziert werden. E-Mails mit einer Grußformel, in der ein vollständiger Personenname enthalten ist, werden nicht als Spam klassifiziert. Dies erfordert in der Regel sehr große Datenmengen, um eine Einschätzung über einen unbekannten Datensatz (neue E-Mails) zu erstellen.
Die Clustering-Methode kann verwendet werden, um neuartige oder sich schnell ändernde Spam-Techniken zu erkennen, für die noch keine markierten Daten zur Verfügung stehen. Es kann jedoch schwierig sein, die Cluster zu bestimmen, insbesondere, wenn sie nicht deutlich voneinander abgegrenzt sind. In der Abbildung 3 ist das unüberwachte Lernen veranschaulicht.
Abbildung 3: Unüberwachtes Lernen (In Anlehnung an Trabold, D., LAMARR-Institut für Maschinelles Lernen und Künstliche Intelligenz, 2021)
Arten des maschinellen Lernens: Bestärkendes Lernen
Das bestärkende Lernen ist eine weitere Art des maschinellen Lernens. Durch Belohnung und Bestrafung lernt der Algorithmus nach und nach, wie er zu handeln hat. Bei der Spam-Erkennung wird das System durch Interaktion trainiert, E-Mails korrekt als Spam oder Nicht-Spam zu klassifizieren, indem es für richtige Entscheidungen belohnt und für Fehler bestraft wird. In der Abbildung 4 ist das Vorgehen schematisch veranschaulicht.
Abbildung 4: Bestärkendes Lernen (In Anlehnung an Trabold, D., LAMARR-Institut für Maschinelles Lernen und Künstliche Intelligenz, 2021)
Die anderen aufgeführten Arten des maschinellen Lernens werden in Teil 2 des Artikels vorgestellt.
Autoren: Dr. Rolf Kremer & Dirk Nolte