Pseudonymisierung und Anonymisierung

R 2.5.0

Was sind Pseudonymisierung und Anonymisierung?

Was sind Pseudonymisierung und Anonymisierung?

Zur Einhaltung der Datenschutz Grundverordnung (DSGVO)

Pseudonymisierung bezeichnet die Verarbeitung personenbezogener Daten auf eine Weise, dass die personenbezogenen Daten "ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können." (Art. 4 Abs. 5 DSGVO)

Anonymisierung bedeutet die Speicherung und Verarbeitung der personenbezogenen Daten in dergestalt, dass "die betroffene Person nicht mehr identifiziert werden kann." (Vorwort 26 DSGVO).

Beschreibung

Die Verwendung von Originaldaten zu Testzwecken bietet aus Testsicht die Vorteile, dass sie wirklich existieren, realistisch, konsistent und im Zeitverlauf historisch valide sind. Auf der anderen Seite stellt sich die datenschutzrechtliche Problematik bei der Verwendung von Echtdaten. Zu prüfen ist daher, ob die Verwendung von personenbezogenen Daten zu Testzwecken nicht gegen den Zweckbindungsgrundsatz sowie den Grundsatz der Datenminimierung verstößt. Trifft dies zu, ist der Einsatz von Echtdaten auf Testumgebungen zu vermeiden.

Stattdessen sollten die Testumgebungen entpersonalisiert werden. Dazu können Methoden wie z.B. die Pseudonymisierung oder Anonymisierung der personenbezogenen Daten eingesetzt werden.

Im Gegensatz zur Anonymisierung bleiben bei der Pseudonymisierung Bezüge verschiedener Datensätze, die auf dieselbe Art pseudonymisiert wurden, erhalten. Das bedeutet, dass z.B. ein Originalwert durch einen anderen Wert ersetzt wird und die Zuordnung in einer entsprechenden Tabelle gespeichert wird. Bei Bedarf kann das Original so wieder rekonstruiert werden. Diese Zuordnungstabelle kann getrennt von den Systemen, Anwendungen und Datenbanken aufbewahrt werden.

Diese Tabelle stellt ein Sicherheitsrisiko dar, denn mit ihr lassen sich die realen persönlichen Daten zurückverfolgen. Aus Test- und QS-Sicht muss allerdings festgehalten werden, dass ein pseudonymisierter Testdatenbestand allerdings im Regelfall eine tiefere fachliche Güte aufweist.

ALT MISSING
Abb. 1: Anonym vs. Pseudonym

Die Anonymisierung der Testdaten hingegen ist eine Stufe strikter als deren Pseudonymisierung. In diesem Fall werden die Originalwerte und deren Zuordnung ausgeschlossen, sodass keine Rückschlüsse auf die Originaldaten mehr möglich sind. Bei der Anonymisierung verschwinden die Daten des einzelnen Individuums in der Masse und der Bezug kann nicht wieder hergestellt werden. D.h. auch die Fehlerfindung wird unter Umständen sehr erschwert.

Eine Gefahr besteht darin, dass sowohl anonymisierte als auch pseudonymisierte Daten unter Umständen auf reale Personen zurückverfolgt werden können!

Anonymization of data isn’t enough to guarantee privacy (Sara Harrison) https://themarkup.org/the-breakdown/2020/03/24/when-is-anonymous-not-really-anonymous

“Anonymized” data really isn’t—and here’s why not: Companies continue to store and sometimes release vast databases of " … (Nate Anderson) https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/

Why 'Anonymous' Data Sometimes Isn’t, Commentary by Bruce Schneier https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/

Latanya Sweeney untersuchte die öffentlich zugänglichen, anonymisierten Daten der amerikanischen Volkszählung aus dem Jahr 1990, und fand heraus, dass 87 Prozent der amerikanischen Bevölkerung, also 216 von 248 Millionen, eindeutig dadurch identifiziert werden konnten, dass man die fünfstellige Postleitzahl der USA mit dem Geschlecht und dem Geburtsdatum kombinierte.

Bei der Planung der Testmaßnahmen und dem passenden Einsatz von geeigneten Testdaten kann die Beteiligung der Datenschutzbeauftragten hilfreich sein.

Neben der erschwerten Einhaltung des Datenschutzes und der Absicherung vor Datenmissbrauch müssen bei der Verwendung von Echtdaten für Tests außerdem folgende Besonderheiten in die Überlegung und Planung aufgenommen werden:

  • Die Zuordnung von produktiven Daten zu Testfällen muss geschaffen werden

  • Wenn mehrere Systeme übergreifend beteiligt sind, müssen deren Echtdaten für die Tests zusammen passen

  • Junge Anwendungen haben womöglich noch zu wenig Daten / ältere womöglich "Datenleichen"

  • Für ganz neue Anforderungen könnte es ggf. noch keine eigenen Echtdaten geben

  • Die Aufwände für die Erstellung der Datenabzüge müssen mit eingeplant werden

Was sind personenbezogene Daten?

ALT MISSING
Abb. 2: Personenbezogene Daten

Gemäß §46 des Bundesdatenschutzgesetzes (BDSG) sind es "alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen."

Beispiele:

  • allgemeine Personendaten (Name, Geburtsdatum, Geburtsort, Anschrift, E-Mail-Adresse, Telefonnummer usw.)

  • Kennnummern (Personalausweisnummer, Matrikelnummer, Steueridentifikationsnummer, Sozialversicherungsnummer usw.)

  • Bankdaten (Kontonummer, Kontostände, Kreditinformationen usw.)

  • Online-Daten (IP-Adresse, Standortdaten usw.)

  • physische Merkmale (Geschlecht, Hautfarbe, Haarfarbe, Augenfarbe usw.)

  • Besitzmerkmale (Eigentum, Grundbucheinträge, Kfz-Zulassungsdaten usw.)

  • Kundendaten (Bestellungen, Adressdaten usw.)

  • Werturteile (Arbeitszeugnis, Schulzeugnis usw.)

Darüber hinaus existieren personenbezogene Daten, die eines erhöhten Schutzes bedürfen (§46 14a-e BDSG):

  • Daten, aus denen die "rassische oder ethnische Herkunft, politische Meinungen, religiöse oder weltanschauliche Überzeugungen oder Gewerkschaftszugehörigkeit hervorgehen.

  • genetische Daten

  • biometrische Daten zur eindeutigen Identifizierung einer natürlichen Person

  • Gesundheitsdaten

  • Daten zum Sexualleben oder der sexuellen Orientierung"

Daten künstlich erzeugen oder echte Daten verfremden?

Vor dem Hintergrund, dass Testdaten keine echten Personendaten beinhalten sollen, gibt es nun verschiedene Ansätze, geeignete Testdaten zu erzeugen:

  • Pseudonymisierung oder Anonymisierung echter Daten

Hier werden die Anteile der Daten, die eine Person eindeutig identifizieren können, aus den Produktivdaten so abgeändert, dass der Bezug zur echten Person nicht mehr bzw. nur mit Zusatzinformationen hergestellt werden kann. Bei der Anonymisierung geschieht die Verfremdung endgültig und bei der Pseudonymisierung werden Pseudonyme für persönliche Identifikatoren verwendet. Ein simples Beispiel ist der Austausch des Namens "Herbert Müller" durch das Pseudonym "Hermann Meier". Die Zuordnung lässt sich nur durch zusätzliche Informationen (z.B. separat geführte Tabelle mit Zugriffsbeschränkung) wiederherstellen.

  • Künstliche ("synthetische") Daten

Es ist außerdem möglich, die Daten komplett künstlich zu erzeugen und beispielsweise aus einer Liste an gültigen Nachnamen, Vornamen und formal gültigen aber falschen Telefonnummern Testdatensätze zusammenzusetzen. Die Testdaten haben keinen Bezug zu den Originaldaten. Tools können unterstützen und statistische Modelle verwenden, die auf den Originaldatensätzen basieren. Bei solchen künstlichen Daten besteht kein Risiko, Datenschutz oder Privatsphäre zu verletzen.

Abgrenzung der Begriffe

ALT MISSING

Strategien bei der Synthetisierung von Testdaten

Zufallsgesteuert
(randomisiert, auch: Dummy- oder Mockdaten)
Modellbasiert
(Regelbasiert)
KI

Aufwand

Gering

Mittel-Hoch

Mittel-Hoch; eher nachgelagerte Validierung
(minimal sagt der Vertrieb!)

Realitätsnähe

Sehr gering

Hängt vom Modell ab: kann sehr gut sein

Anspruch: maximal gut

Datenschutz

maximal

maximal

Zugang zu Echtdaten zu Trainingszwecken erforderlich

Datenmenge

Manuelle Eingabe: gering
Generator: beliebig hoch

Beliebig hoch

Beliebig hoch

Zufallsgesteuert bedeutet, dass Werte bestimmter Variable zufällig belegt werden (z.B. Alter von 0-85, Geschlecht abwechselnd m/w/d, Beruf aus einer Liste von vorgegebenen Möglichkeiten).

Beim modellbasierten (auch: regelbasierten) Ansatz wird ein Modell entwickelt, dass den Daten aus der Echtwelt möglichst nahe kommt (Grundlage sind Statistiken, bekannte Erhebungen, Schätzungen, Prognosen). Das kann insbesondere wichtig sein, wenn die Daten voraussichtlich bestimmten Mustern unterliegen. Beispielsweise könnte es sein, dass es bestimmte Verteilungen gibt, die nachgebildet werden sollen (Verhältnis männlich zu weiblich, Schwerpunkt auf bestimmte Bildungsabschlüsse). Vielleicht gibt es aber auch noch gar keine Echtdaten und nur Annahmen darüber wie die Daten vielleicht später einmal aussehen könnten.

Der Einsatz von Künstlicher Intelligenz wird seit einiger Zeit auf vielen Gebieten propagiert. Bei der Synthese von Testdaten findet zunächst eine Analyse der Echtdaten statt, sie bilden die Grundlage und den Ausgangspunkt. Zugang zu den Echtdaten muss also möglich, bzw. vorhanden sein). Mithilfe von statistischen Analysen der Echtdaten werden verschiedene Lage- und Streuungsmaße (deskriptiv, bivariat) ermittelt. Diese sind dann wiederum Grundlage für den Aufbau eines Datensatzes, der eng an den Produktionsdaten dran ist (qua Durchschnittsverteilung z.B.). KI-Modell muss auf den Produktivdaten trainiert werden!

Vorteile von Testdatengeneratoren

  • Schnell auch große Datenmengen erstellen

  • Leichter dokumentieren können

  • Nachvollziehbarkeit durch Archivierung

  • Kontrolliert aufgebaute Datenbestände

Nachteile von Testdatengeneratoren

  • Entwicklung eines Modells notwendig

  • Synthetisches Modell oder alternativ Echtdatenzugriff als Grundlage eines (statistischen) Modells

  • Aufwände für Modellpflege und –anpassung

  • Fachliche Tiefe fraglich

  • Bias möglich

  • Caching-Probleme

  • Gleichmäßige Verteilung (auch bei Namen und Vornamen)

  • Randbereiche, Freak-Cases und Grenzbedingungen

Ermittlung der Domänen-Objekte

ALT MISSING

Soll ein modellbasierter Testdatengenerierungsansatz eingesetzt werden sind genaue Kenntnisse des Datenmodells aber auch der Fachklassen (domain objects) notwendig. Die entstandenen Generate müssen fachlich und technisch validiert werden, was eine eigene Testaktivität bedeutet: Test und Qualitätssicherung der Testdaten

Probleme bei der Modellentwicklung

  • Genauigkeit der Datenverteilung: Schwierigkeit die genaue Verteilung der realen Daten zu reproduzieren

  • Aufrechterhaltung von Korrelationen: Berücksichtigung von Korrelationen und Abhängigkeiten zwischen Variablen

  • Validierung und Qualitätssicherung: Synthetische Daten müssen umfangreich validiert werden

Quellen