Wie funktionieren KI-Detektoren? Und wie zuverlässig sind die Ergebnisse? Die wissenschaftliche Lektorin Merle-Sophie Lösing hat KI-Scanner auf ihre Verlässlichkeit geprüft und teilt die Ergebnisse in diesem Gastbeitrag.
Mit KI erstellte Texte erkennen
Nicht erst seit gestern boomt die Texterstellung mit KI. Das ist auch kein Wunder – schließlich konnte sich mittlerweile wohl fast jeder schon davon überzeugen, wie praktisch es ist, einen Text mithilfe von KI schreiben zu lassen. Egal ob Blogartikel, wissenschaftlicher Text oder Businessplan – häufig klingen die Ergebnisse so gut, dass wir uns fast sicher sind: Niemand kann erkennen, dass dieser Text nicht von einem Menschen geschrieben wurde. Doch ist das wirklich so? Gibt es Tricks, um KI-Nutzung sicher nachweisen zu können? Sind KI-Detektoren vielleicht die Lösung? Antworten auf diese Fragen soll der folgende Blogartikel geben.
Was sind KI-Scanner und was prüfen sie?
Bei KI-Scannern oder -Detektoren dreht sich alles um Muster. Diese Tools wurden dafür entwickelt, festzustellen, ob bei einer Texterstellung KI im Spiel war. Das Prinzip dahinter: Die Programme wurden mit zahlreichen KI-Texten gefüttert und damit darauf trainiert, Muster zu erkennen. Typisch für Inhalte, die mit KI generiert wurden, sind z. B. bestimmte Textstrukturen, bestimmte Worte, Wortwiederholungen, Satzlängen und verschiedene Floskeln und Phrasen. Häufig fällt beim Arbeiten mit KI auch so schon auf, dass bestimmte Formulierungen und Floskeln immer wieder verwendet werden, die Menschen eigentlich eher nicht nutzen würden. Die Sprache von Menschen ist abwechslungsreicher und enthält mehr Variationen. Auch der rote Faden des Textes wird geprüft. Typisch für KI sind z. B. Sprünge, falsche Aussagen und häufig auch Zusammenfassungen – insbesondere, wenn der Text mit einer vorgegebenen Wortzahl generiert wurde. Wichtig ist: Die Scanner antworten auf die Frage, ob ein Text mit KI-generiert wurde, meistens nicht mit „Ja“ oder „Nein“, sondern geben eine Wahrscheinlichkeit in Form eines Scores an.
Kein Anbieter eines Scanners wirbt dabei mit 100%-tiger Genauigkeit. Es geht darum, Tendenzen zu ermitteln. Grundlage für die Einschätzung sind Algorithmen und statistische Modelle, die anhand des Trainingsmaterials entwickelt wurden. Interessanterweise schlagen Scanner auch oft an, wenn Texte kaum oder gar keine sprachlichen Fehler beinhalten – nach dem Motto Fehler sind menschlich.
Wie verlässlich sind KI-Detektoren? Beispiele zur Arbeitsweise
Vielleicht haben Sie diese Erfahrung auch schon einmal gemacht: Sie haben einen Text selbst geschrieben und trotzdem schlägt der KI-Detektor aus und gibt sogar einen relativ hohen Score an. Gerade bei Sachtexten, in denen z. B. technische Zusammenhänge beschrieben werden, kann das leider passieren. Hier gibt es in Bezug auf Formulierungen und Fachvokabular häufig nicht so viel Spielraum. Die Programme schätzen dann den selbst geschriebenen Text als KI-geniert ein – weil die KI ihn wahrscheinlich fast genauso schreiben würde. Das folgende Beispiel verdeutlich diese Problematik:
Wenn Sie mit 3 Sätzen beschreiben sollten, wie eine Glühbirne funktioniert, käme wahrscheinlich ein Inhalt dieser Art dabei heraus:
Eine Glühbirne funktioniert, indem elektrischer Strom durch einen dünnen Draht im Inneren der Glühbirne fließt. Der Draht erhitzt sich aufgrund des Widerstands so stark, dass er zu glühen beginnt und Licht abgibt. Das Glasgehäuse der Glühbirne schützt den glühenden Draht vor Sauerstoff, wodurch ein Durchbrennen verhindert wird und das erzeugte Licht nach außen abgestrahlt werden kann.
Geben wir diesen Text in einen gängigen KI-Detektor ein, schlägt dieser massiv aus – und ist sich zu 100 % sicher, dass hier KI im Spiel war:
Es gibt aber eine ganz einfache Möglichkeit, den Score zu drücken: Es müssen einfach nur ein paar Rechtschreibfehler in den Text eingefügt werden! Prüfen wir z. B. dieses Beispiel:
Eine Glühbirne funktioniert, indem elektriscer Strom durch einen dünn Draht im Inneren der Glühbirne fließt. Der Draht erhitzt sich aufgrund des Wiederstands so stark, das er zu glühen beginnt und Licht abgibt. Das Glasgehäuse der Glübirne schützt den glühenden Draht vor dem Sauerstoff wodurch ein Durchbrennen verhindert wird das erzeugte Licht nach außen abgestrahlt werden kann.
Hier wurden einige Rechtschreibfehler eingebaut – und der Scanner ist sich plötzlich zu 100 % sicher, dass der Text menschengemacht ist:
Allein dieses Beispiel zeigt schon, dass die Verlässlichkeit von KI-Detektoren durchaus angezweifelt werden darf. Wie gut ein Scanner einen Text einschätzen kann, hängt von den verwendeten Algorithmen und der Güte der Trainingsdaten ab. Zwar zeigt sich in verschiedenen Versuchen, dass bestimmte Scanner deutlich zuverlässiger prüfen als andere, trotzdem lässt sich unterm Strich konstatieren: Eine 100%-tige Genauigkeit bei der KI-Prüfung gibt es nicht. Es ist allerdings wahrscheinlicher, dass von Menschen geschriebene Texte fälschlicherweise als KI-generiert erkannt werden als andersherum. Bei hybriden Texten, bei denen Teile von der KI und Teile von Menschen verfasst wurden, ist die Einschätzung der Detektoren noch unzuverlässiger.
Derzeit gibt es wenig Hinweise darauf, dass KI-Detektoren in Zukunft deutlich zuverlässiger arbeiten werden. Das Grundproblem ist nämlich: Auch die KI wird immer besser darin, menschliche Sprache zu imitieren. Blindes Vertrauen in KI-Scanner ist also unangebracht. Auch im akademischen Kontext können solche Scanner zwar eventuell verwendet werden, um Tendenzen herauszuarbeiten – rechtssicher nachgewiesen werden kann die Verwendung von KI damit aber bis auf Weiteres nicht.
Es heißt zudem immer wieder, dass OpenAI die Möglichkeit hätte, mit ChatGPT erstellte Texte mit unsichtbaren Wasserzeichen zu versehen, sodass der Ursprung nachgewiesen werden kann. Obwohl es hierzu technische Möglichkeiten gibt, ist die Methode derzeit noch in der Testphase und es ist fragwürdig, ob zahlende User:innen diese Änderung mittragen würden.
Sind kostenpflichtige KI-Scanner besser als kostenfreie Varianten?
Mittlerweile gibt es verschiedene KI-Detektoren und auch sehr viele kostenlose Lösungen auf dem Markt. Allerdings ergeben Recherchen, dass es keinen KI-Detektor gibt, bei dem man von einer 100%-tigen Genauigkeit ausgehen kann – und auch keinen, der sich stark von der Konkurrenz absetzt. Zudem werden die Detektoren immer weiter trainiert. Das hat – wie auch bei den KI-Tools – die Folge, dass die Leistung der einzelnen Programme stetiger Veränderung unterworfen ist.
Kostenpflichtige Scanner bieten allerdings oft erweiterte Funktionen und werben zumindest mit einer höheren Genauigkeit, da sie in der Regel auf umfangreicheren Datensätzen basieren und fortschrittlichere Algorithmen verwenden. Oft sind sie zudem auch bequemer, da zum Beispiel eine höhere Wortanzahl gleichzeitig geprüft werden kann. Aber: Vertrauen Sie den Scannern nicht zu sehr. Lesen Sie die entsprechenden Texte lieber auch einmal gründlich und prüfen Sie, ob diese nach KI klingen.
Welche Möglichkeiten habe ich noch, um einen Text auf KI zu prüfen?
Neben den herkömmlichen KI-Scannern kann auch Ihre eigene Expertise schon eine gute Einschätzung liefern. Denn – um es noch einmal zu wiederholen – auch die KI-Scanner arbeiten nur mit Mustererkennung, und einige dieser Muster sind auch für uns problemlos erkennbar. Vielleicht ist Ihnen beim Surfen in letzter Zeit z. B. schon einmal aufgefallen, dass bestimmte Formulierungen immer wieder zu lesen sind, obwohl Sie sie gar nicht intuitiv verwenden würden? Das kann ein Hinweis darauf sein, dass die entsprechenden Texte KI-generiert sind. Im englischsprachigen Raum wurde z. B. nachgewiesen, dass sich die Wörter „tapestry“ und „reimagined“ mittlerweile immer häufiger in Texten finden lassen. Der Zusammenhang ist auffällig, da Untersuchungen ergaben, dass GPT beispielsweise das Wort „reimagined“ ca. 1000-mal so oft verwendet, wie es Menschen in ihren Texten tun würden. Im Deutschen sind es Phrasen wie „Es ist bemerkenswert, dass…“ und „Zusammenfassend lässt sich sagen, dass…“, die immer häufiger zu lesen sind. Sollten Ihnen also solche Formulierungen auffallen, kann das ein erster Hinweis auf KI-Nutzung sein.
KI-Texte weisen zudem häufig eine sehr hohe Konsistenz auf – die Sätze sind also alle ähnlich lang, es gibt weniger Schachtelsätze und die Wortwahl variiert kaum. Auch häufige Wortwiederholungen sind ein starker Hinweis auf KI-Nutzung. Grammatik- und Rechtschreibfehler sowie sehr originelle Formulierungen werden Sie bei KI-Texten dagegen selten finden.
Auch der Inhalt kann einen Aufschluss darüber geben, ob KI genutzt wurde. Häufig gelingt es KI derzeit noch nicht so gut, wirklich kohärent Themen zu erklären und einen guten Lesefluss aufrechtzuerhalten. Alles klingt eher generisch und Fragen, die einem beim Lesen in den Kopf kommen, werden häufig nicht beantwortet, da nur die Ausgangsfrage bearbeitet wurde. Auch Sprünge und Widersprüche sind ein Hinweis auf die Verwendung von KI. Gelegentlich wurde hier auch von Texten, die bereits existieren, abgeschrieben. Deshalb kann es auch hilfreich sein, verdächtige Passagen in Suchmaschinen einzugeben oder einem KI-Tool einfach einmal die Fragen zu stellen, die in den Überschriften formuliert sind.
Der Umgang mit KI-Detektoren und KI-Texten erfordert etwas Sensibilität. Wenn Sie aber einen Text lesen, der Sie logisch und sprachlich überzeugt und abwechslungsreich formuliert ist, können Sie zwar nicht ausschließen, dass bei der Generierung KI genutzt wurde – es hat dann aber in der Regel eine umfassende Überarbeitung stattgefunden.
Wenn Sie sich bei der KI-Prüfung selbst unsicher fühlen, bietet Ihnen ACAD WRITE ein KI-Lektorat durch erfahrene Expert:innen an, bei dem Texte mit menschlichem Knowhow optimiert werden.
Pingback:How Reliable Are AI Detectors? • AI Scanners Tested