KI und Large Language Models im Fokus des Hamburgischen Datenschutzbeauftragten
Hintergrund
Die Datenschutz-Grundverordnung (DSGVO) der Europäischen Union stellt strenge Anforderungen an die Verarbeitung personenbezogener Daten. Mit dem Aufkommen von künstlicher Intelligenz (KI) und insbesondere Large Language Models (LLMs) wie ChatGPT stellt sich die Frage, wie diese Technologien mit den Datenschutzbestimmungen in Einklang gebracht werden können. Der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit (HmbBfDI) hat hierzu ein Diskussionspapier veröffentlicht, das die rechtlichen und praktischen Aspekte der Nutzung von LLMs beleuchtet.
Einschätzung des Hamburgischen Datenschutzbeauftragten
KI-Systeme wie z.B. ChatGPT bestehen aus verschiedenen Komponenten, die die Eingabe des Nutzers verarbeiten, bevor ein Output generiert wird. Ein LLM ist eine dieser Komponenten und zuständig für die Verarbeitung von Sprache durch Wahrscheinlichkeitsmodelle. LLMs werden mit enormen Datenmengen trainiert, die häufig auch personenbezogen sind. Dabei durchlaufen die Daten einen Abstraktionsprozess, indem sie in kleine Einheiten, sogenannte Tokens, zerlegt werden. Aus dem Namen „Mia Müller“ entstehen beispielsweise die Tokens „M“, „ia“, „Mü“ und „ller“. Diesen Tokens nutzt das LLM je nach Kontext der Eingabe des Nutzers, um daraus einen Output zu generieren. Nach Auffassung des HmbBfDI geht durch diesen Prozess jeglicher Bezug zu den Ausgangsdaten und damit auch zu den betroffenen Personen verloren. Ein LLM an sich enthält daher keine personenbezogenen Daten, selbst wenn diese zum Training des LLM herangezogen wurden. Statt konkreter Merkmale und Bezüge zu bestimmten Personen seien nur noch allgemeine Muster und Zusammenhänge im LLM erfasst, die keine Rückschlüsse auf einzelne Personen mehr zulassen würden. Jeglicher Output eines LLMs basiert auf einer Wahrscheinlichkeitsberechnung und wird „neu produziert“. Dies unterscheidet ein LLM beispielsweise von einer Datenbank, die gespeicherte Informationen unverändert ausgibt.
Privacy Attacks
Der HmbBfDI geht auch auf sogenannte Privacy Attacks ein. Dies sind gezielte Attacken auf LLMs, um personenbezogene Trainingsdaten zu extrahieren. Der HmbBfDI beruft sich hier auf die Rechtsprechung des Europäischen Gerichtshofs (EuGH), wonach keine personenbezogenen Daten vorliegen sollen, wenn der Personenbezug nur durch einen unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften oder unter Verstoß gegen ein gesetzliches Verbot möglich ist. Privacy Attacks erforderten enorme technische und zeitliche Ressourcen und seien daher nur mit einem unverhältnismäßigen Aufwand im Sinne der EuGH-Rechtsprechung möglich. Außerdem sei der Output mit den vollständigen originalen Trainingsdaten zu vergleichen, auf die durch gesetzwidrige Methoden zugegriffen werden könne. Privacy Attacks fänden daher aktuell nur zur wissenschaftlichen Erforschung und Verbesserung der Modelle statt.
Praktische Folgen
Aus dem Diskussionspapier des HmbBfDI lassen sich im Wesentlichen folgende praktische Hinweise ableiten:
- Das LLM beinhaltet selbst keine personenbezogenen Daten, selbst wenn das LLM mit personenbezogenen Daten trainiert wurde. Nutzer können daher keine Rechte nach der DSGVO bezogen auf das LLM geltend machen.
- Der Einsatz eines LLM durch ein Unternehmen ist nicht rechtswidrig, wenn der Anbieter das LLM mit rechtswidrig verwendeten personenbezogenen Daten trainiert hat. Da der Personenbezug im Trainingsprozess verloren geht, liegt kein Datenschutzverstoß durch das Unternehmen vor, das das LLM verwendet.
- Personenbezogene Daten dürfen nur mit einer Rechtsgrundlage zum Training eines LLM verwendet werden. Wenn ein Unternehmen beispielsweise ein Drittanbieter-LLM mit eigenen Daten auf einen speziellen Anwendungszweck nachtrainieren möchte, sollte es sicherstellen, dass die Trainingsdaten keine personenbezogenen Daten enthalten, oder andernfalls prüfen, ob eine Rechtsgrundlage nach der DSGVO vorliegt und die Betroffenenrechte gewahrt sind.
- Bei der Nutzung eines Drittanbieter-LLMs ist zu prüfen, ob das System die Erfüllung von Betroffenenrechten in Bezug auf den Input und Output ermöglicht, ob der Anbieter über ausreichende Schutzmaßnahmen vor Privacy Attacks verfügt und wie die datenschutzrechtlichen Verantwortlichkeiten (Auftragsverarbeitung, gemeinsame Verantwortlichkeit, selbstständige Verantwortlichkeiten) verteilt sind.