
Wie Du KI-Modelle mit personenbezogenen Daten trainieren kannst – ohne gegen die DSGVO zu verstoßen

Das wichtigste auf einen Blick
- Breite Datenbasis: KI-Modelle verarbeiten direkte und indirekte personenbezogene Daten.
- Rechtlicher Rahmen: DSGVO erlaubt KI-Training nur mit Rechtsgrundlage, Transparenz, Zweckbindung und Datenminimierung.
- Technische Umsetzung: Anonymisierung, Data Governance, DSFA und Fairness-Prüfungen reduzieren Risiken.
- Herausforderungen: Sensible Daten, komplexe Datenflüsse und Bias erfordern klare Governance.
- Empfehlung: Frühzeitig Prozesse, Schulungen und Schutzmaßnahmen etablieren.
Hintergrund – Was ist passiert?
Das Training von KI-Modellen mit personenbezogenen Daten ist längst fester Bestandteil vieler Geschäftsprozesse – von E-Commerce-Empfehlungen über medizinische Diagnosesysteme bis hin zu HR-Bewerbertools. Doch die DSGVO setzt dabei enge Grenzen: Unternehmen müssen eine klare Rechtsgrundlage, Transparenz, Zweckbindung und Datenminimierung sicherstellen. Besonders sensibel wird es, wenn indirekte Daten wie Klickverhalten oder Sprachmuster in Kombination identifizierbar werden. Fehlende Governance, komplexe Datenflüsse und mangelnde technische Schutzmaßnahmen erhöhen das Risiko von Datenschutzverstößen. Frühzeitige Prozesse, Dokumentation und technische Safeguards sind entscheidend, um regulatorische Konflikte zu vermeiden und Vertrauen zu schaffen.
Inhaltsverzeichnis:
Was sind personenbezogene Daten im KI-Kontext?
Personenbezogene Daten sind laut Art. 4 Nr. 1 DSGVO alle Informationen, die sich auf eine identifizierte oder identifizierbare Person beziehen.
Im KI-Kontext kann das direkt (Name, E-Mail) oder indirekt (Klickverhalten, IP-Adresse, Sprachmuster) sein.
Beispiele für personenbezogene Daten im KI-Training:
- Kundendaten aus CRM-Systemen für Verkaufsprediktion
- Bewerberdaten zur Optimierung von Recruiting-Algorithmen
- Chat-Transkripte für Chatbot-Training
- Verhaltensmuster im E-Commerce zur Personalisierung
Problem: Viele Unternehmen unterschätzen, dass auch scheinbar harmlose Nutzungsdaten (etwa Zeitstempel oder Navigationspfade) in Kombination personenbeziehbar sind.
Wo wird KI heute bereits mit personenbezogenen Daten trainiert?
In fast allen digitalen Geschäftsmodellen:
E-Commerce & Marketing
- Produktempfehlungen basierend auf Nutzerverhalten
- A/B-Tests zur Optimierung von Personalisierungen
- Lookalike-Audiences für Werbung
Healthcare
- Trainingsdaten für Diagnose-Algorithmen mit Patientendaten
- Spracherkennung in medizinischen Dokumentationen
Predictive Analytics
- Kundenabwanderungsprognosen (Churn Prediction)
- Umsatzvorhersagen mit CRM-Historien
Human Resources
- Bewerber-Vorsortierung basierend auf alten Bewerbungsdaten
- Performance-Prognosen durch HR-Feedbackdaten
Use Case:
Ein SaaS-Anbieter im HR-Bereich trainiert ein Modell zur Bewerberauswahl mit historischen Lebensläufen. Viele dieser Daten enthalten Geschlecht, Herkunft, Alter – also sensible personenbezogene Daten.
Was ist aus Datenschutzsicht erlaubt – und was nicht?
Laut DSGVO ist das Trainieren von KI mit personenbezogenen Daten grundsätzlich zulässig, aber nur unter bestimmten Bedingungen:
1. Rechtsgrundlage nach Art. 6 DSGVO
- Meist relevant: Einwilligung oder berechtigtes Interesse
- Für besonders sensible Daten (z. B. Gesundheit): Art. 9 DSGVO → ausdrückliche Einwilligung notwendig
2. Transparenz und Zweckbindung
- Nutzer:innen müssen klar verstehen, dass ihre Daten für KI-Zwecke genutzt werden
- Der Zweck muss eindeutig sein (z. B. „Verbesserung der Empfehlungslogik“)
3. Datenminimierung (Art. 5 DSGVO)
- Nur wirklich notwendige Daten dürfen verwendet werden
- Überflüssige oder veraltete Informationen sind auszuschließen
4. Betroffenenrechte einhalten
- Daten müssen auf Anfrage einsehbar, löschbar, portierbar sein
- Profiling darf keine rechtlichen oder wesentlichen Entscheidungen ohne menschliches Zutun treffen (Art. 22 DSGVO)
Technische Safeguards für datenschutzkonformes KI-Training
Der rechtliche Rahmen muss technisch umgesetzt werden – hier die wichtigsten Maßnahmen:
1. Anonymisierung & Pseudonymisierung
- Soweit möglich, personenbezogene Merkmale durch Zufallswerte oder IDs ersetzen
- Achtung: Nur echte Anonymisierung befreit von der DSGVO – Pseudonymisierung nicht!
2. Data Governance & Versionierung
- Jede KI-Trainingsversion sollte nachvollziehbar dokumentieren, welche Daten verwendet wurden
- Zentrale Löschprotokolle und Zeitlimits (z. B. 12 Monate) sind sinnvoll
3. DSFA (Datenschutz-Folgenabschätzung)
- Pflicht bei hohem Risiko für Betroffene (z. B. bei Scoring, Verhaltenstracking)
- Hilft dabei, Risiken früh zu erkennen und Maßnahmen zu definieren
4. „Fairness by Design“
- Sensible Merkmale (z. B. Geschlecht, Herkunft) nicht als Features verwenden, wenn sie keine sachliche Relevanz haben
Bias Detection und Fairness Audits regelmäßig durchführen (Bias Detection bezeichnet das Erkennen von systematischen Verzerrungen in Daten, Algorithmen oder Entscheidungen, während Fairness Audits strukturierte Prüfungen sind, die sicherstellen, dass KI- und Datensysteme fair, diskriminierungsfrei und regelkonform funktionieren.)
Praktische Empfehlungen für Unternehmen
Vor dem Training:
- Rechtsgrundlage festlegen (am besten dokumentiert in einem Verarbeitungsverzeichnis)
- Transparente Datenschutzhinweise erstellen
- Datenquellen bewerten: Welche Datenkategorien sind kritisch?
Während des Trainings:
- Pseudonymisierung oder Aggregation aktivieren
- Sensible Features bewusst entfernen oder neutralisieren
- Automatisierte Risikobewertung implementieren
Nach dem Training:
- DSFA durchführen oder aktualisieren
- Löschroutinen technisch sicherstellen
Ergebnis-Modelle auf Verzerrungen prüfen („Fairness Check“)
Fazit
Das Trainieren von KI-Modellen mit personenbezogenen Daten ist nicht per se verboten – aber es ist reguliert. Unternehmen, die die rechtlichen Vorgaben (DSGVO) mit technischen Schutzmaßnahmen kombinieren, gewinnen doppelt: Sie schaffen Vertrauen bei Kunden und stellen gleichzeitig sicher, dass ihre AI-Projekte skalierbar und zukunftsfest bleiben.
Wichtiger Hinweis: Der Inhalt dieses Artikels dient ausschließlich Informationszwecken und stellt keine Rechtsberatung dar. Die hier bereitgestellten Informationen können eine individuelle Rechtsberatung durch (je nach Anwendungsfall) einen Datenschutzbeauftragten oder Rechtsanwalt nicht ersetzen. Wir übernehmen keine Gewähr für die Aktualität, Vollständigkeit und Richtigkeit der bereitgestellten Informationen. Jegliche Handlungen, die auf Grundlage der in diesem Artikel enthaltenen Informationen vorgenommen werden, erfolgen auf eigenes Risiko. Wir empfehlen, bei rechtlichen Fragen oder Problemen stets (je nach Anwendungsfall) einen Datenschutzbeauftragten oder Rechtsanwalt zu konsultieren.


