Am Ende eines meiner KI-Seminare fragte eine Teilnehmerin:
„Ich soll also einen Artikel, den ich selbst geschrieben habe, mit meiner Autorenzeile in ein Sprachmodell hochladen, damit das Tool meinen Stil lernt. Ehrlich gesagt habe ich dabei Datenschutzbedenken. Ist das sinnvoll – oder fahrlässig?“
Die Antwort auf diese Frage ist komplexer, als es im ersten Moment scheint. Darum habe ich dazu einen Blogbeitrag geschrieben. Man muss dieses Thema eigentlich aus drei unterschiedlichen Perspektiven beleuchten. Fangen wir ganz einfach an.
Eventuell kann man das Training unterbinden
Zumindest in ChatGPT kann ich unter „Einstellungen“ und „Datenkontrolle“ den Punkt „Das Modell für alle verbessern“ deaktivieren. Dort heißt es: „Erlaube uns, unsere Modelle mit deinen Inhalten zu trainieren, um ChatGPT für dich und alle, die es verwenden, noch besser zu machen. Wir ergreifen Maßnahmen für deinen Datenschutz.“
Wer KI-Modelle über eine Schnittstelle, die sogenannte API nutzt, beispielsweise über OpenWebUI, sollte grundsätzlich mit seinen Daten die Tools nicht trainieren. Auch in der Business Variante des Microsoft Copilot sollte ein Training ausgeschlossen sein. Schaut dazu doch einmal in die Einstellungen der Tools und gegebenenfalls Verträge.
Steht der Text online, wurde er sowieso schon fürs Training genutzt. Oder?
Falls der Text freizugänglich im Internet steht, ist die Wahrscheinlichkeit hoch, dass er sowieso schon fürs Training eines oder mehrerer LLMs genutzt wurde. Wobei meine Erfahrung ist, dass auch die Paywall KI-Bots nicht unbedingt davon abhält, auf meine Texte zuzugreifen. Zumindest habe ich bei LibGen die Info erhalten, dass 14 meiner Texte hinter einer Paywall von Meta.AI fürs Training benutzt wurden.
Um die Frage aber ganz korrekt zu beantworten, müssen wir etwas tiefer in das Thema einsteigen.
Stiltraining mit eigenen Texten – was dabei wirklich passiert
Viele KI-Tools können den Schreibstil ihrer Nutzer*innen kopieren. Die Idee: Eigene Texte hochladen, künftig passgenauere Entwürfe bekommen. Das spart Zeit.
Allerdings steht oft ein Missverständnis am Anfang der Debatte, ob man das tun sollte oder nicht, nämlich die Vorstellung, ein KI-Modell „kenne“ konkrete Artikel. Das ist nicht ganz so. Selbst wenn ein Text öffentlich zugänglich war und in Trainingsdaten enthalten sein kann, heißt das nicht, dass ein Sprachmodell diesen Artikel genauso widergeben wird.
Große Sprachmodelle funktionieren nicht wie Datenbanken oder Archive. Beim Training werden keine Texte abgelegt, sondern statistische Wahrscheinlichkeiten angepasst: Welche Wörter folgen typischerweise aufeinander? Wie sind Argumente aufgebaut? Welche Tonlagen passen zu welchen Themen? Das Modell lernt also Muster, keine Dokumente. Es erzeugt Antworten Wort für Wort.
Der Unterschied ist journalistisch entscheidend:
- Suchmaschinen finden Texte.
- Sprachmodelle generieren Texte.
Ein Beispiel: ich veröffentliche einen Artikel zum Thema KfZ-Versicherungs-Wechsel. Das machen außer mir vielleicht weitere 5000 Journalist*innen. Dann werden diese Texte durch eine Art digitalen Fleischwolf gedreht und danach kann aufgrund der errechneten Statistiken ein weiterer Artikel generiert werden, der aber üblicherweise nicht mehr einem Journalisten oder einer Journalistin zugeordnet werden kann.
„Mein Artikel war möglicherweise Teil von Trainingsdaten“ bedeutet also nicht: Das Modell kann ihn wieder ausgeben.Es bedeutet üblicherweise: Bestimmte sprachliche oder thematische Muster sind eingeflossen. Trotzdem ermächtige ich dadurch das Tool ein Stückchen mehr, einen korrekten Artikel zu einem bestimmten Thema zu schreiben.
Und es gibt durchaus Fälle, in denen vom KI-Tool ausgespuckte Texte nahezu 1:1 dem Original entsprechen. Ich habe ein solches Beispiel sogar in meinen Folien zum Thema Urheberrechtsverletzungen. Darum ist es auch so wichtig, immer die Quellen zu überprüfen. Aber das ist ein anderes Thema.
Tipp: Um meinen Schreibstil zu übernehmen, muss ich gar nicht ganze Artikel hochladen. Drei oder vier Absätze dürften auch reichen, um einem LLM eine Vorgabe zu machen.
Werde ich sichtbarer, wenn ich meinen Artikel mit meiner Autor*innenzeile in ein LLM hochlade?
Wenn man sich Gedanken darüber macht, wie man in Zukunft noch sichtbar sein kann im Internet, kommt man unweigerlich zu der Frage, ob man ein LLM darauf trainieren könnte, den eigenen Namen mit einem speziellen Thema zu assoziieren, indem man viele Texte mit der eigenen Autorenzeile ins KI-Tool lädt.
Es ist so: Ein einzelner Upload führt nicht zu messbarer Sichtbarkeit in KI-Antworten. Aber wenn Name, Thema und Expertise öffentlich und konsistent zusammen auftreten, also eben über Artikel, Profile, Vorträge, Interviews, dann bildet sich durchaus ein statistisches Muster. Das könnte langfristig auch in generischen KI-Antworten auftauchen.
Um es nochmals anders zu sagen: Ich habe keine Bedenken, einen Artikel von mir, der öffentlich zugänglich ist, in ein LLM hochzuladen. Ist der Text aber in einem Printprodukt oder hinter einer Paywall, würde ich das nicht tun. Schon allein, weil üblicherweise auch der Auftraggeber ein Recht an den Inhalten hat. Dafür habe ich mein Honorar bekommen.
FAQs
Sehr unwahrscheinlich, aber nicht unmöglich. Sprachmodelle generieren Texte neu und greifen nicht auf gespeicherte Artikel zurück. Exakte Reproduktionen treten selten auf.
Ja. Für viele Tools genügen wenige Absätze. Vollständige Artikel mit Autorenzeile sind dafür nicht zwingend notwendig.