KI-Innovation und Datenschutz – Ein Widerspruch?
Wir stehen bei der Entwicklung der Künstlichen Intelligenz (KI) noch in einer frühen Phase und doch ist sie längst ein fester Bestandteil unseres Alltags – sei es in Sprachassistenten, Empfehlungsalgorithmen oder automatisierten Übersetzungen. Damit KI-Systeme effektiv arbeiten können, benötigen sie große Mengen an Daten. Oft sind darunter auch personenbezogene Daten, also Informationen, die sich auf identifizierbare Personen beziehen. In der Praxis entsteht häufig Reibung zwischen den Datenschutzgrundsätzen, insbesondere die Datenminimierung, Zweckbindung und Transparenz, auf der einen Seite und der KI-Verordnung, die die Entwicklung und Nutzung von KI-Systemen fördern möchte, auf der anderen Seite.
Das Spannungsfeld
Das Spannungsfeld zwischen der Datenschutz-Grundverordnung (DSGVO) und der KI-Verordnung betrifft im Wesentlichen drei Punkte:
Die DSGVO gilt für sämtliche Verarbeitungsvorgänge personenbezogener Daten – von der Datenauswahl über das Training bis zum Betrieb und Monitoring eines KI-Systems. Dabei sind nicht nur klassische Identifikatoren wie Name oder Adresse relevant, sondern sämtliche Merkmale, die eine Identifizierung ermöglichen, auch indirekt durch Verknüpfung verschiedener Datenquellen. Bei der Entwicklung von KI-Modellen ist es üblich, enorme Datenmengen aus verschiedensten Quellen zusammenzuführen. Zudem müssen die Voraussetzungen der DSGVO über den gesamten Lebenszyklus des KI-Systems beachtet werden.
Auch wenn KI-Modelle die verwendeten Trainingsdaten verallgemeinern und grundsätzlich nicht im Original enthalten, können sie Inhalte wortwörtlich memorisieren und reproduzieren. Dies wirft die Frage auf, ob ein trainiertes Modell selbst als personenbezogenes Datum gilt, wenn identifizierbare Informationen abrufbar sind.
Die KI-Verordnung erkennt den Bedarf an umfangreichen Trainingsdaten an, relativiert aber die Geltung der DSGVO nicht. Die datenschutzrechtlichen Anforderungen bleiben bestehen und müssen in die Entwicklung und den Betrieb von KI-Systemen integriert werden.
Datenschutzrechtliche Rechtsgrundlagen für das KI-Training
Für jede Verarbeitung personenbezogener Daten im KI-Kontext ist eine belastbare Rechtsgrundlage erforderlich. In der Praxis ist die Einholung wirksamer Einwilligungen für komplexe Trainingsdatensätze oft kaum umsetzbar. Daher rückt das berechtigte Interesse nach Art. 6 Abs. 1 lit. f DSGVO in den Fokus. Hierbei ist eine strukturierte Interessenabwägung erforderlich, die tatsächliche Risiken und risikomindernde Maßnahmen berücksichtigt.
Besondere Kategorien personenbezogener Daten (z. B. Gesundheitsdaten, biometrische Merkmale) dürfen grundsätzlich nur unter strengen Voraussetzungen verarbeitet werden (Art. 9 DSGVO). Neben der ausdrücklichen Einwilligung kann eine Rechtsgrundlage auch dann bestehen, wenn die betroffene Person das personenbezogene Datum selbst offensichtlich öffentlich gemacht hat. Bei diesen sensiblen Daten sollte jedoch besonders kritisch geprüft werden, da ein Datenschutzverstoß umso schwerer wiegt und ein potenzielles Bußgeld entsprechend empfindlicher ausfallen wird.
Mögliche Lösungen und Best Practices
Um diesen Herausforderungen zu begegnen, hat die Datenschutzkonferenz - also die Konferenz der Aufsichtsbehörden - eine Orientierungshilfe herausgegeben, welche sich auch in Best Practices niederschlägt.
Eine Möglichkeit ist die Anonymisierung von Trainingsdaten, sodass Rückschlüsse auf einzelne Personen erschwert werden. Allerdings ist vollständige Anonymität in komplexen Datensätzen oft schwer zu erreichen. Beim Design kann bereits berücksichtigt werden, ob es sich um ein offenes oder geschlossenes System handeln soll. Vorteil des geschlossenen Systems ist, dass sämtliche Eingabe- und Ausgabedaten im System verbleiben und nicht zu Trainingszwecken weiterverwendet werden.
Beim Training eines KI-Systems kann mittels Federated Learning verhindert werden, dass die Trainingsdaten den Ursprungsort verlassen.
Als Betreiber eines KI-Systems gehören zu den wirksamsten Datenschutz-Maßnahmen der Einsatz von Datenschutz-Folgenabschätzungen, die transparente Information der betroffenen Personen sowie die Einhaltung von Prinzipien wie „Privacy by Design“ und „Privacy by Default“.
Durch die Möglichkeit, enorme Datenmengen zu verarbeiten, treten ganz allgemeine Maßnahmen stärker in den Vordergrund, wie bspw.
- die Verteilung klarer Verantwortlichkeiten und Prozesse für den Umgang mit personenbezogenen Daten samt Rollen- und Berechtigungskonzept,
- die Sicherstellung der DSGVO-konformen Datenhaltung durch ein umfassendes Löschkonzept und
- die frühzeitige Einbeziehung des Informationssicherheits- und Datenschutzbeauftragten.
Fazit
Die Entwicklung und Implementierung von KI-Systemen im Einklang mit den geltenden rechtlichen Rahmenbedingungen stellen angesichts der komplexen und teils widersprüchlichen Gesetzgebung eine anspruchsvolle Aufgabe dar. Durch die frühzeitige Berücksichtigung geeigneter und angemessener Maßnahmen bereits im Planungsprozess können Unternehmen jedoch das erhebliche Potenzial dieser Technologie gezielt ausschöpfen. Für konkrete Fragestellungen zur Umsetzung stehen wir Ihnen gerne beratend zur Verfügung.