Trend Logo

KI-Datenmangel, künstliche Daten & die DSGVO

Subressort
Aktualisiert
Lesezeit
6 min

©midjourney/Elke Mayr
  1. home
  2. Finanzen
  3. Recht

Gehen den KI-Modellen die Trainingsdaten aus? Synthetische Daten gehen das Problem der Datenknappheit an - doch wie sind diese künstliche Daten auch rechtlich unbedenklich?

von

Der KI gehen die Trainingsdaten aus

Bekanntlich müssen KI-Modelle mit einer Unmenge an Daten trainiert werden. Mittlerweile hört man immer öfter Berichte von einem Datenmangel in der KI-Branche. Zuletzt ist in der New York Times ein Artikel mit dem bezeichnenden Titel "The Data That Powers A.I. Is Disappearing Fast" erschienen. Danach soll die Datenbeschaffung insbesondere durch Web-Scraping, also dem Absaugen von Inhalten aus dem Internet, laufend schwieriger werden. Immer mehr Webseitenbetreiber verwehren sich dieser Praxis und wollen ein Abschöpfen ihrer Daten nicht so einfach zulassen. Das kann nicht nur die großen Anbieter von Modellen generativer KI treffen, sondern auch weniger etablierte Player und Start-ups. Deren Anwendungen basieren oft auf bekannten KI-Modellen. Auch ein Aufschließen zu den Großen wird dadurch schwieriger.

Rettungsanker Künstliche Daten…

Als möglicher Ausweg werden oft synthetische Daten genannt. Dabei handelt es sich um Daten, die künstlich generiert werden, aber in wesentlichen Punkten von Menschen erzeugten Daten entsprechen. Deshalb können sie - zumindest in bestimmten Konstellationen – anstelle von echten Daten zum Training von KI eingesetzt werden. Nicht selten werden synthetische Daten auch als Lösung für datenschutzrechtliche Schwierigkeiten beim KI-Training in Verbindung gebracht.  Mangels Echtheit sollen solche nicht bestehen und ohne die Einschränkungen der DSGVO trainiert werden können.

… oder doch DSGVO?

Allerdings und gerade, weil das Potential synthetischer Daten für Fälle, in denen keine relevanten Echtdaten zur Verfügung stehen, groß ist, sollte diese These nicht einfach übernommen werden. Einem datenschutzrechtlichen Reality-Check hält sie nämlich nicht unbedingt stand.

Manche synthetische Daten werden auf der Grundlage von Echtdaten hergestellt. Sind diese personenbezogen, ist der Erzeugungsvorgang an der DSGVO zu messen. Wer also Daten, die sich auf eine identifizierbare Person beziehen, sammelt und verarbeitet, um synthetische Daten zu generieren, muss für diesen Arbeitsschritt die Regeln der DSGVO beachten. Das hat mehrere Folgen:

  • Zunächst muss eine datenschutzrechtliche Rechtfertigung vorhanden sein. Nicht praxistauglich wäre das Einholen von Einwilligungen, weil diese jederzeit widerrufen werden könnten. Für KI-Entwickler, die eine Synthetisierung vornehmen wollen, wird sich daher regelmäßig die Frage stellen, ob sie ein überwiegendes berechtigtes Interesse an der Datenverarbeitung argumentieren können.

  • Außerdem bestehen Transparenzpflichten den betroffenen Personen gegenüber. Diese sind über die Verarbeitung ihrer Daten zu informieren.

  • Auch andere „klassische“ Grundsätze der DSGVO, wie etwa die Vorgaben zur Zweckbindung und Datenminimierung greifen uneingeschränkt. Personenbezogene Daten dürfen nicht auf Vorrat erhoben und stets nur im notwendigen Ausmaß und zu einem festgelegten Zweck verarbeitet werden. Ob Daten, die bereits aus anderen Gründen gesammelt wurden, zur Synthetisierung verarbeitet werden können, muss im Einzelfall beurteilt werden.

… und was sagt der AI Act dazu?

Der AI Act nennt an einer Stelle synthetische Daten gemeinsam mit anonymisierten Daten. Es würde aber zu weit gehen, daraus abzuleiten, dass synthetisierte Daten immer mit hinreichend anonymisierten Daten gleichzusetzen sind und aus dem Anwendungsbereich der DSGVO hinausfallen. Wenn betroffene Personen trotz abgeschlossener Synthetisierung identifizierbar sind, gilt die DSGVO. Diese bleibt parallel zum AI Act anwendbar und ist auch bei synthetischen Daten einschlägig, wenn diese aus von Menschen generierten Daten erzeugt wurden. Einem Mangel an Trainingsdaten kann durch Synthetisierung daher nur dann rechtssicher begegnet werden, wenn die DSGVO als Compliance-Aufgabe ernst genommen wird.

Erweiterte Tool-box zur Datenbeschaffung?

In Europa gibt es noch weitere Ansätze, die einen Beitrag leisten könnten, um eine (aufkommende) Knappheit an Trainingsdaten abzufedern; dies zumindest nach Absicht des EU-Gesetzgebers. Im Rahmen der sogenannten EU-Digitalstrategie wurden einige gesetzgeberische Initiativen, wie insbesondere der Data Act, der nächstes Jahr in Geltung tritt, verabschiedet. Vor allem durch smarte Geräte (Stichwort: Internet of Things) werden immer mehr Daten produziert. Der in diesen liegende Wert soll nicht mehr nur einigen wenigen, sondern vielen Marktteilnehmern zugutekommen.

Zu diesem Zweck wird für bestimmte Fälle ein Recht auf Zugang zu Daten eingeführt. Die Hoffnung ist, dass Daten dadurch mehr als bisher in Umlauf geraten und verstärkt gehandelt werden. Gerade um einen Bedarf an sehr spezifischen Daten zu decken, können Verträge über eine Datennutzung hilfreich sein.  Von diesen Instrumenten kann auch das KI-Training profitieren. Ob diese Rechnung des EU-Gesetzgebers aufgeht, ist derzeit noch offen. Somit bleibt die KI-Branche auch aus Juristensicht besonders spannend.

Künstliche IntelligenzKommentar

Über die Autoren

Logo
Jahresabo jetzt -30% ab € 11,60 im Monat
Ähnliche Artikel