Published On: März 21, 2024Tags: Cybersicherheit, KI, KI Inhalt

GBS testet die beliebtesten Tools für die KI-Erkennung

Close-up hand on a computer keyboard. Diverse pro gamer team with african ethnicity leader competing at video game eSport championship

Mit dem letzten Blogartikel sind wir ins Thema der Erkennung von KI-generierten Texten eingestiegen. Dr. Rolf Kremer, R&D Manager bei GBS, stellte einige Methoden zur Analyse des Inhalts von Dokumenten oder E-Mails vor, anhand derer festgestellt werden kann, ob sie von einem Menschen oder einer künstlichen Intelligenz (KI) verfasst wurden. In diesem Blog-Beitrag geben Dr. Kremer und Dirk Nolte, Senior Software Developer, eine Übersicht über am Markt verfügbare KI-Erkennungstools, die sich genau dieser Aufgabe widmen. Die KI-Erkennungstools überprüfen, ob ein eingegebener Text von einer KI oder einem Menschen erstellt wurde.

Das gestaltet sich zurzeit noch recht schwierig, da die Technologie erst am Anfang der Entwicklung ist. Auch sind die meisten dieser Tools eher in angelsächsischen Ländern entwickelt worden, weshalb sie mit der englischen Sprache am erfolgreichsten umgehen können. Bei anderen Sprachen, wie z. B. Deutsch, müssen bei der Genauigkeit der Ergebnisse teilweise deutliche Abstriche gemacht werden. Allerdings ist es nur eine Frage der Zeit, bis diese Tools auch andere Sprachen mit der gleichen Genauigkeit wie der englischen Sprache verarbeiten können.

Besonders kritisch ist es natürlich, wenn ein Tool einen von einem Menschen geschriebenen Text fälschlicherweise als KI-generierten Text identifiziert. Je nach Anwendungszweck kann dies negative Auswirkungen für den Menschen oder ein Unternehmen haben. Beispielsweise, wenn es sich um einen prüfungsrelevanten Text im schulischen oder universitären Umfeld handelt. Ein weiteres Beispiel wäre ein Kunde eines Beratungsunternehmens, der irrtümlich annimmt, dass er das Honorar für einen von einer KI generierten Ergebnisbericht bezahlen muss.

Manuelle vs. Online-KI-Erkennungstools

Generell ist bei den KI-Erkennungstools zu unterschieden, ob diese manuell oder automatisiert per Schnittstelle genutzt werden können. Bei einer manuellen Nutzung muss der zu prüfende Text durch einen Menschen in dem KI-Erkennungstool erfasst werden und das Tool liefert dann das Ergebnis über die Urheberschaft. Hiermit lassen sich nur wenige Texte pro Zeitabschnitt überprüfen. Hinzukommt, dass diese KI-Erkennungstools oftmals nur für kurze Texte kostenlos zu nutzen sind. Bei umfangreicheren Texten muss ein kostenpflichtiger Account beschafft werden. Die Nutzung solcher KI-Erkennungstools über eine Schnittstelle hat den Vorteil, dass größere Mengen an Texten überprüft werden können. Eine solche Nutzung ist meistens nur kostenpflichtig möglich. Ferner ist dadurch möglich, die Überprüfung in die Unternehmensprozesse zu integrieren. Beispielsweise können eingehende E-Mails automatisch auf Spam, Phishing, Fake- Inhalte usw. überprüft werden. Dem internen Empfänger wird ein Hinweis an die E-Mail geheftet, so dass er sehen kann, dass die E-Mail nicht von einem Menschen, sondern von einem KI-Tool erzeugt wurde. In der Tabelle 1 ist für die aufgeführten KI-Erkennungstools angegeben, ob diese über eine programmierbare Schnittstelle verfügen.

iQ.Suite – die E-Mail-Lösung für Sicherheit und Produktivität von GBS – verfügt ebenfalls über eine REST-Schnittstelle. Diese ermöglicht es dem Kunden, ein eigenes Tool zu erstellen, das die E-Mail-Texte durch ein KI-Erkennungstool laufen lässt. Das Tool zieht die Texte aus der E-Mail aus einer Quarantäne heraus, überprüft sie dann mit dem KI-Erkennungstool und schreibt das Ergebnis zurück in die E-Mail in der Quarantäne. Dies könnte z. B. dazu verwendet werden, ein Label zu setzen.

Mehr lernen

Handelt es sich bei den KI-Erkennungstools um online zu nutzende Systeme, so muss beachtet werden, dass die Daten die Unternehmensgrenzen verlassen. Deshalb sind diese KI-Erkennungstools nicht für vertrauliche Daten geeignet. Aus Datenschutzgründen ist es sicherer, wenn die KI-Erkennungstools in der Unternehmensinfrastruktur integriert werden können, so dass die Daten nicht außerhalb des Unternehmens abfließen. Dies ist jedoch schwierig, da KI-Erkennungstools häufig externe Quellen im Internet für die Überprüfung von Textinhalten nutzen.

GBS testet die gängigsten KI-Erkennungstools auf ihre Präzision

Eine aktuelle Übersicht über KI-Erkennungstools für verschiedene Zwecke ist beispielsweise auf den Internetangeboten ki-suche.io oder TopAI.tools zu finden. Neben diesen KI-Erkennungstools sind auch Analysen der KI-Erkennungstools im Internet zu finden, wie z. B. der Artikel „Bewertung der Wirksamkeit von Tools zur Erkennung von KI-Inhalten in Bezug auf die Unterscheidung zwischen menschlichem und KI-generiertem Text“ (Quelle nur auf Englisch) im “International Journal for Educational Integrity” oder „Testen von Erkennungswerkzeugen für KI-generierten Text“ (Quelle nur auf Englisch) von einer Autorengruppe des “European Network for Academic Integrity”.

GBS hat ein paar dieser KI-Erkennungstools selbst getestet, um ihre Genauigkeit zu prüfen und stellt im Folgenden die Ergebnisse vor. Für den Test wurden dabei drei Texte in englischer Sprache verwendet. Ein Text wurde mittels ChatGPT 4 erzeugt, ein Text wurde selbständig formuliert und ein Text wurde gemischt erzeugt, d.h. der erste Absatz wurde mit ChatGPT 4 erzeugt und der zweite Absatz wurde von Menschen geschrieben. In der Tabelle 1 sind die verschiedenen KI-Erkennungstools mit den Ergebnissen aufgeführt. Logischerweise sollte die Erkennungsrate für den KI-generierten Text am besten gleich oder nahe bei 100 % liegen. Bei dem Menschen-generierten Text ist eine Erkennungsrate gleich oder nahe 0 % am besten, und beim gemischten Text sollte die Erkennungsrate gleich oder nahe 50 % sein.

Tabelle 1: Ergebnisse für die angewendeten KI-Erkennungstools (alle Tests wurden am 09.03.2024 durchgeführt)

Abbildung 1: Testergebnisse bei Copyleaks (Text C, links) und GPTZero (Text A, rechts)

Das Ergebnis des Tests zeigt, dass beim KI-generierten Text die vier KI-Erkennungstools AI Content Detector, AI Detector, Copyleaks und Plagiarismcheck am besten abgeschnitten haben. Beim Menschen-generierten Text lieferten Copyleaks und GPTZero das beste Ergebnis. Beim gemischten-Text wäre ein Wert um 62% am besten, da dieses das Verhältnis zwischen den KI-generierten Textteil und dem von einem Menschen geschriebenen Textteil ist. Hier liefert GPTZero das beste Resultat, während der AI Detector, Copyleaks, Plagiarismcheck und ZeroGPT (fast) den gesamten Text als einen KI-generierten Text bezeichneten. In der Abbildung 2 sind die Ergebnisse grafisch dargestellt.

Abbildung 2: Vergleich der angewendeten KI-Erkennungstools

OpenAI, der Hersteller von ChatGPT hatte übrigens ein eigenes Erkennungstool namens AI-Classifier veröffentlicht. Dieses wurde jedoch wieder eingestellt, da die Genauigkeit nicht gut genug war.

Fazit

Die Technologie wird sich sicherlich weiter entwickeln, so dass die Vorhersagegenauigkeit steigen wird. Jedoch werden auch die generativen KI-Systeme stetig weiterentwickelt, so dass die erstellten Texte und Bilder zukünftig nur sehr schwer gegenüber den von Menschen erzeugten Texten und Bildern zu unterscheiden sind. Beispielsweise lassen sich mit ChatGPT 4 generierte Texte schwieriger erkennen als Texte, die mit ChatGPT 3.5 generiert wurden (siehe Abbildung 3). Insofern ist fragwürdig, welche Zukunft solche KI-Erkennungstools haben werden. Bei Bedarf werden in Zukunft evtl. solche Texte oder Bilder mit Wasserzeichen versehen. Dadurch ist auch ohne eine KI-Erkennungstool-Analyse erkennbar, ob der Text oder das Bild von einer KI oder von einem Menschen erzeugt wurde. Natürlich ist auch zu bedenken, dass ein Mensch den Text zunächst durch eine KI erstellen und dann in größerem oder kleinerem Maße verändern kann.

Alle vorgestellten Tools verwenden Methoden des maschinellen Lernens für die Überprüfung. Im nächsten Blog-Artikel werden deshalb die verschiedenen Methoden des maschinellen Lernens beschrieben.

Abbildung 3: Vergleich ChatGPT 3.5 und ChatGPT 4 bei verschiedenen Tools (Ausschnitt). Quelle

Anhang:

Text A: Text von ChatGPT 4 erzeugt (Englisch) (Name des Empfängers und Absenders wurde manuell hinzugefügt)

Dear Mark,

I hope this email finds you well. Today, I’d like to share with you an insightful overview of Keynesian economics, a theory that has significantly influenced modern economic policies and thought. Developed by the British economist John Maynard Keynes during the 1930s, in response to the Great Depression, Keynesian economics challenges the classical economic idea that markets are always clear and that economies can self-correct through supply and demand adjustments. Keynes argued that, during periods of economic downturn, private sector demand might not be sufficient to maintain full employment. He suggested that, in such times, government intervention through increased public spending and lower taxes could stimulate demand, thereby pulling the economy out of recession. This approach advocates for an active role of the government in managing economic cycles, emphasizing the importance of fiscal policy alongside monetary policy in regulating economic activity.

Best regards,

Ken Miller

Text B: Text wurde selbst erzeugt (Übersetzung eines Absatzes vom vorhergehenden Blog-Artikel) (Englisch)

In recent years, systems based on artificial intelligence have been constantly developed so that they can now generate texts that increasingly resemble texts generated by humans. As technology advances, these texts become more sophisticated, making them more difficult to distinguish from human-generated texts. Below are some features that can be used to recognize AI-generated texts, which can also be contained in emails, for example.

On the one hand, this can be done by analysing the writing style. AI-generated texts tend to have a monotonous and formulaic writing style. This contains recurring patterns, excessive neutrality, or a lack of personal nuance. It can also happen that unusual wording or abrupt changes of topic can be found in the texts. Such inconsistencies in context should not be present if the texts were written by a human or at least proofread by a human before publication. Longer contents of documents that are intended to be perceived as authentic and trustworthy should contain comprehensible and trustworthy sources. AI-generated texts usually do not contain any indication of sources. If the content also contains images, they often show a lack of realism in the details or inconsistencies in light and shadow. Especially when people are depicted in the picture, the colour tones usually appear unrealistic.

Text C: Erster Absatz stammt von ChatGPT4 (1.026 Zeichen), der zweite Teil wurde manuell hinzugefügt (631 Zeichen) (Englisch)

The General Data Protection Regulation (GDPR) is a comprehensive data protection law that came into effect in the European Union on May 25, 2018. It aims to give individuals control over their personal data and to simplify the regulatory environment for international business by unifying the regulation within the EU. The GDPR mandates that personal data must be processed lawfully, transparently, and for a specific purpose. Once that purpose is fulfilled and the data is no longer needed, it should be deleted. It also grants individuals the right to access their data, correct inaccuracies, and, in some cases, have their data erased. Importantly, the GDPR requires organizations to obtain explicit consent from individuals before processing their data, implement measures to protect data, and promptly notify authorities and individuals of data breaches. Non-compliance can result in hefty fines, making it imperative for organizations that process the data of EU citizens to ensure they meet GDPR requirements.

The GDPR is not yet fully implemented in many companies now. On the one hand, this is because many company processes must be changed. On the other hand, the controls by the data protection supervisory authorities have not yet been carried out extensively. In Germany, each federal state has its own data protection supervisory authority. This means that checks are carried out with varying intensity. On the other hand, the supervisory authorities have had to be set up in recent years and are staffed differently depending on the federal state. Each data protection supervisory authority is led by a state data protection officer.

Autor: Dr. Rolf Kremer & Dirk Nolte

GBS testet die beliebtesten Tools für die KI-Erkennung

Manuelle vs. Online-KI-Erkennungstools

GBS testet die gängigsten KI-Erkennungstools auf ihre Präzision

Fazit

DLP für Finanzinstitute

Inhaltsbereich 1

Inhaltsbereich 2

GBS testet die beliebtesten Tools für die KI-Erkennung

Manuelle vs. Online-KI-Erkennungstools

GBS testet die gängigsten KI-Erkennungstools auf ihre Präzision

<img decoding="async" class="alignnone wp-image-9063 size-full" title="KI-Erkennung Ergebnisse" src="https://gbs.com/wp-content/uploads/KI-Tools-11.jpg" alt="" width="700" height="1200" />

<img decoding="async" class="alignnone wp-image-9067 size-full" title="Testergebnisse" src="https://gbs.com/wp-content/uploads/AI-test.jpg" alt="" width="1400" height="800" />

<img decoding="async" class="alignnone wp-image-9070 size-full" title="Vergleich der angewendeten KI-Erkennungstools" src="https://gbs.com/wp-content/uploads/Screenshot-2024-03-20-174709d.jpg" alt="" width="1300" height="900" />

Fazit

<img decoding="async" class="alignnone wp-image-9073 size-full" title="ChatGPT 3.5 vs. ChatGPT 4" src="https://gbs.com/wp-content/uploads/Picture7.png" alt="" width="1000" height="1200" />

DLP für Finanzinstitute

Inhaltsbereich 1

Inhaltsbereich 2