
Nachhaltige KI-Innovationen erfordern sinnvolle strukturierte Datenbestände
Die Anwendung von KI erweitert bestehende Anforderungen an eine sinnvolle Klassifikation von Unternehmensdaten.
Einleitung
Traditionelle Datenklassifikationsschemata wie “streng vertraulich”, “vertraulich”, “intern” und “öffentlich” oder das Traffic Light Protocol (TLP) leisten gute Dienste hinsichtlich der Klassifikation von Daten hinsichtlich ihrer Vertraulichkeit. Sie definieren, wer auf welche Informationen zugreifen darf und wie diese geteilt werden können. Doch mit dem zunehmenden Einsatz von Künstlicher Intelligenz stoßen diese klassischen Ansätze an ihre Grenzen.
Die Verarbeitung von Daten durch KI-Systeme bringt neue Herausforderungen mit sich, die über die reine Vertraulichkeit hinausgehen. Wenn ein Unternehmen beispielsweise Kundendaten für RAG-Systeme (Retrieval-Augmented Generation) nutzen oder ein eigenes Sprachmodell trainieren möchte, reichen Kategorien wie “intern” oder “vertraulich” nicht aus. Wir benötigen differenziertere Antworten auf Fragen wie: Dürfen diese Daten überhaupt für KI verwendet werden? Für welche Art der KI-Verarbeitung? Und unter welchen Bedingungen?
Die Lücken traditioneller Klassifikationsschemata
Das Problem mit bestehenden Ansätzen
Klassische Vertraulichkeitsklassifikationen fokussieren sich primär auf:
- Zugriffsberechtigungen: Wer darf die Daten einsehen?
- Weitergaberichtlinien: An wen dürfen die Daten weitergegeben werden?
- Aufbewahrungsregeln: Wie lange werden die Daten gespeichert?
Was dabei fehlt, sind spezifische Regelungen für die KI-Nutzung, die ganz andere Verarbeitungsarten mit sich bringt.
Neue Herausforderungen durch KI
Die ISO 42001 macht deutlich, dass Organisationen spezielle Anforderungen für den Umgang mit Daten in KI-Systemen definieren sollten. Dabei geht es um fundamentale Fragen der Datenverwendung, die bei traditionellen IT-Systemen nicht relevant waren:
Unterschiedliche KI-Verarbeitungsarten erfordern unterschiedliche Berechtigungen:
- KI-Konversationen: Direkte Nutzung in Chat-Systemen oder Assistenten
- RAG-Verarbeitung: Einbettung in Vektordatenbanken für kontextuelle Abfragen
- KI-Agenten: Verarbeitung von Daten im Rahmen von Prozessautomatisierungen
- Modell-Training: Verwendung als Trainingsdaten für eigene KI-Modelle
Jede dieser Verarbeitungsarten hat unterschiedliche Risikoprofile und rechtliche Implikationen.
Für eine konforme Anwendung von KI-Systemen müssen vertragsrechtliche und gesetzliche Anforderung bei der Klassifikation von Daten berücksichtigt werden. Eine Grundlage für die im Folgenden dargestellten erweiterten Klassifikationskriterien benötigt es einen Überblick der gesetzlichen, regulatorischen und rechtlichen Anforderungen, z.B. in Form eines Rechtskataster (s. ISO 27001, A.5.23).

Ein erweitertes Klassifikationsschema für KI-Daten
Jede Organisation sollte ermitteln, welche Kriterien für eine Klassifikation relevant sind. Dabei sind neben den beschriebenen externen Anforderungen weitere Aspekte relevant, beispielweise welche KI-Technologien überhaupt zum Einsatz kommen.
Die folgenden Dimensionen zeigen beispielhaft, welche Kriterien relevant sein können.
Dimension 1: Datenherkunft und Ownership
Eigene Daten (Internal)
- Vom Unternehmen selbst generierte Daten
- Vollständige Kontrolle über Nutzungsrechte
- Beispiel: Interne Prozessdokumentation, selbst erstellte Inhalte
Kundendaten (Customer)
- Daten von Kunden oder Nutzern
- Das eigene Unternehmen ist “Custodian” der Daten - die Verarbeitung für eigene Zwecke ist unzulässig oder eingeschränkt (z.B. vertragliche oder gesetzlich)
- Zweckbindung und Einwilligung erforderlich
- Beispiel: Daten von Kunden unter NDA oder gemäß TLP:AMBER klassifiziert, z.B. mit der eigenen Organisation geteilte strategische Dokumente wie Marketingpläne oder Geschäftskonzepte
Drittpartei-Daten (Third-Party)
- Lizenzierte oder zugekaufte Daten
- Nutzung durch Lizenzvereinbarungen beschränkt
- Beispiel: Marktforschungsdaten, gekaufte Datensätze, Fachliteratur
Öffentliche Daten (Public)
- Frei verfügbare Informationen
- Keine Nutzungsbeschränkungen
- Beispiel: Open-Source-Dokumentation, öffentliche Statistiken
Dimension 2: KI-Verarbeitungserlaubnis
KI-frei (AI-Free)
- Keine KI-Verarbeitung erlaubt
- Traditionelle IT-Verarbeitung möglich
- Beispiel: Hochsensible Personaldaten (z.B. gemäß Art. 9 DSGVO oder Hochrisiko-Anwendungsfälle gem. KI-VO ohne Erfüllung der in der Verordnung beschrieben Voraussetzungen)
KI-Konversation (AI-Conversation)
- Für direkte KI-Interaktionen nutzbar
- Keine persistente Speicherung in KI-Systemen
- Beispiel: Allgemeine Produktinformationen für Chatbots
KI-RAG (AI-Retrieval)
- Für RAG-Systeme und Vektordatenbanken erlaubt
- Strukturierte Aufbereitung für Kontextabfragen möglich
- Beispiel: Firmen-Wiki, Prozesshandbücher
KI-Training (AI-Training)
- Für Modell-Training verwendbar
- Höchste Verarbeitungserlaubnis
- Beispiel: Anonymisierte Supportanfragen, allgemeine Textkorpora
Dimension 3: Datenqualität und Vertrauenswürdigkeit
Verifiziert (Verified)
- Hohe Datenqualität
- Vertrauenswürdige Quelle
- Kontrollierter Eingabeprozess
- Beispiel: Offizielle Unternehmensdokumentation mit Freigabeprozess
Standard (Standard)
- Normale Datenqualität
- Bekannte Quelle
- Regelmäßige Qualitätsprüfungen
- Beispiel: Routinemäßig gepflegte Datenbanken
Ungeprüft (Unverified)
- Unbekannte oder unsichere Datenqualität
- Risiko von “Data Poisoning”
- Besondere Vorsicht bei KI-Nutzung erforderlich
- Beispiel: Benutzergenerierte Inhalte, externe Feeds
Dimension 4: Rechtliche und regulatorische Anforderungen
Reguliert (Regulated)
- Unterliegen besonderen gesetzlichen Bestimmungen
- Beispiel: Personenbezogene Daten (DSGVO), Finanzmarktdaten
Zweckgebunden (Purpose-Bound)
- Nur für spezifische, definierte Zwecke nutzbar
- Beispiel: Marktforschungsdaten mit Nutzungsbeschränkung
Frei (Unrestricted)
- Keine besonderen rechtlichen Beschränkungen
- Beispiel: Öffentliche Unternehmensinformationen
Praktische Anwendung des erweiterten Schemas
Beispiel-Klassifikationen
| Beispiel-Daten | Ownership | Erlaubnis | Qualität | Rechtlich | Erläuterung |
|---|---|---|---|---|---|
| Kundenkommunikation (b2b) | Internal | AI-Conversation | Unverified | Reguliert | Nutzung in unterstützenden Prozessen |
| Vertriebsdaten ohne Personenbezug | Internal | AI-Training | Standard | Frei | Modelltraining möglich |
| Fachliteratur | Third-Party | AI-Conversation | Verified | Purpose-Bound | Keine automatisierte Verarbeitung mit KI, Fallentscheidung erforderlich |
Die Tabelle verschiedene Klassifikationen anhand von Beispielen. Die Tabelle lässt sich mit bestehenden Datenkategorien erweitern.
CAUTION
Vorsicht beim Trainieren von KI-Modellen die personenbezogenen Daten, wenn die Rechtsgrundlage für die Nutzung die Einwilligung ist. Merkmal der Einwilligung ist, dass diese widerrufen werden kann. Die betreffenden Daten können aus KI-Modellen grundsätzlich nicht entfernt werden - ein erneutes Training ohne die betroffenen Daten wäre erforderlich.
Im Zuge der Datenminimierung sollte geprüft werden, ob die personenbezogenen Daten überhaupt für das Training erforderlich sind oder ob mit maskierten und anonymisierten Daten gearbeitet werden kann.
Implementierung in der Praxis
Bei der Umsetzung in der Praxis können organisatorische wie technische Lösungen zum Einsatz kommen. Der Ausgangspunkt sollte bei organisatorischen Lösungen liegen, die durch technische Maßnahmen ergänzt und verbessert werden können.
Ein Daten-Inventar erleichtert die Umsetzung und ermöglicht die Klassifikation nach Gruppen (siehe Beispiele in der obigen Tabelle). So können bereits viele Daten klassifiziert werden, ohne dass eine manuelle Klassifikation einzelner Daten und Dateien erforderlich wird. Das Dateninventar ist zudem im Zeitverlauf relativ stabil, so dass regelmäßige Reviews zunächst ausreichend sind.
Wichtig bei der Erstellung des Inventars ist, dass die für die jeweiligen Daten verantwortlichen Personen oder Gruppen mit dokumentiert werden.
Das Inventar an Daten kann anschließend als Grundlage für interne Schulungen verwendet werden.
Die Anforderungen an organisatorische wie technische Maßnahmen sollte in einer Richtlinie zur KI-Datennutzung festgehalten werden.
Ist das Fundament mit den organisatorischen Maßnahmen gelegt, können unterstützende technische Maßnahmen etabliert werden:
- Metadaten-Tags für automatisierte Klassifikation
- API-Integration für Zugriffskontrolle
- Monitoring und Audit-Trails
Fazit und Ausblick
Die zunehmende Integration von KI in Unternehmensprozesse macht eine Weiterentwicklung traditioneller Datenklassifikationsschemata erforderlich. Ein mehrdimensionaler Ansatz, der Datenherkunft, KI-Verarbeitungserlaubnis, Qualität und rechtliche Anforderungen berücksichtigt, bietet die nötige Granularität für den verantwortungsvollen Umgang mit KI-Systemen.
Unternehmen, die frühzeitig solche erweiterten Klassifikationsschemata implementieren, schaffen nicht nur die Grundlage für konforme Nutzung von KI, sondern auch für innovative Anwendungen, die das volle Potenzial ihrer Daten ausschöpfen können.
Die Investition in eine durchdachte KI-Datenklassifikation ist eine Investition in die Zukunftsfähigkeit des Unternehmens. Sie ermöglicht es, KI-Technologien verantwortungsvoll und effektiv zu nutzen, während gleichzeitig Risiken minimiert und regulatorische Anforderungen erfüllt werden.

