· 

Anonymisierung vs. Pseudonymisierung

1. Einführung

In Gesetzestexten wie dem Bundesdatenschutzgesetz (BDSG) und der Datenschutzgrundverordnung (DSGVO) ist immer wieder die Rede von Anonymisierung und Pseudonymisierung personenbezogener Daten (z. B. im Medizin-Kontext). Daraus lässt sich bereits schließen, dass es sich bei diesen beiden Begrifflichkeiten um zwei verschiedene Dinge handelt.

Auch in der aktuellen Corona-Thematik fallen diese beiden Begriffe sehr häufig, wenn es um die Auswertung von Standort- oder Gesundheitsdaten geht. Ich werde deshalb genau erklären, was man unter diesen beiden Begriffen versteht und worin sie sich unterscheiden.


2. Pseudonymisierung

In Artikel 4 Absatz 5 der DSGVO steht zur Pseudonymisierung:

"Pseudonymisierung" [ist] die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden;

Bei der Pseudonymisierung werden die Daten, mit deren Hilfe eine Identifikation möglich wäre, durch ein Pseudonym, also z. B. einen Code, aus dem man NICHT die personenbezogenen Daten herleiten kann, aufgelistet. Wenn der Patient Max Mustermann bspw. am 20.02.1967 geboren worden wäre, dann wäre MaMu20021967 kein gutes Pseudonym, da Teile der personenbezogenen Daten aus dem Pseudonym herausgelesen werden können.

Bei der Pseudonymisierung existiert jedoch eine Art Mapping-Tabelle, die für ein Pseudonym das dahinterstehende Subjekt auflistet, wodurch in letzter Instanz eine Identifizierung doch noch möglich ist. Dafür muss der entsprechenden Stelle diese Tabelle aber bekannt sein. Eine unbedarfte Person wird mit dem Pseudonym alleine nicht viel anfangen können. Bei klinischen Untersuchungen werden bspw. pseudonymisierte Daten eingesetzt, da für die Datenauswertung nicht wichtig ist, wer genau hinter dem Subjekt steht, doch die Aussagekraft der Studie im Nachhinein theoretisch nachweisbar sein muss. Warum dafür anonymisierte Daten nicht wirklich sinnvoll sind, wirst du sehen, wenn wir diesen Begriff besprechen. Wenn ein wichtiger Grund dafür besteht, den Patienten, der an der Studie teilgenommen hat, zu identifizieren, dann ist dies mit pseudonymisierten Daten immer noch möglich. 

In vielen Web-Portalen werden pseudonymisierte Daten verwendet. Warum und woran erkennt man das? Nun, du musst dir bei der Registrierung oft ein Pseudonym zulegen, das dann in der Kommunikation mit anderen Registrierten angezeigt wird. Nur der Betreiber der Seite kennt dann für gewöhnlich den Klarnamen, den du bei der Registrierung verwendet hast, weil er die Mapping-Tabelle mit der Zuordnung von Pseudonymen zu Subjekten besitzt.

Der Schutz der Pseudonymisierung fußt vor allem auf dem Umstand, dass die einzelnen Datensätze nicht zusammengeführt werden (können) und strikt getrennt voneinander existieren (mit Ausnahme der Mapping-Tabelle).


3. Anonymisierung

In §3 Absatz 6 des BDSG steht zur Anonymisierung: 

Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können

Bei der Anonymisierung werden alle identifizierenden Merkmale gelöscht bzw. nicht gespeichert, d. h. es gibt auch keine Zuordnungstabelle. Allerdings ist das bei bestimmten Daten gar nicht möglich, da man die Information an sich speichern muss und nur eine Zuordnung unmöglich sein soll. Denkt man bspw. an Gendaten, dann wird einem schnell klar, dass diese Information an sich eine Person bereits eindeutig identifizierbar macht. Gleiches gilt auch für Fingerabdrücke oder Retina-Muster bzw. generell allen biometrischen Merkmalen. Eine IP-Adresse ist für sich betrachtet ohne eine Mapping-Tabelle für die Identifizierung von Personen mehr oder weniger wertlos. Die Information "Eine Person hatte am 21.04.2017 die IP-Adresse XYZ" ist nett, doch sagt de facto nichts aus außer dass die IP-Adresse XYZ am 21.04.2017 einer Person zugeteilt war.


4. Gegenüberstellung anhand eines Beispiels

Bleiben wir kurz im Klinik-Umfeld: Mal angenommen, der Patient Max Mustermann hat einen BMI von 22. Dann würde man bei der Pseudonymisierung Max Mustermann z. B. den randomisierten Code 1928 zuweisen und die Information "Patient Max Mustermann hat einen BMI von 22" würde zu "Patient 1928 hat einen BMI von 22". Die Information, wer Patient 1928 ist, würde in einer Mapping-Tabelle vorhanden sein. Die anonymisierte Variante würde lauten: "Ein Patient hat einen BMI von 22". Da keine weiteren Informationen hierzu gespeichert werden, ist es quasi unmöglich, aus diesen Daten Max Mustermann einen BMI von 22 zu attestieren.


5. Herausforderungen

Im Umgang mit der Pseudonymisierung und Anonymisierung ist man vor einige Herausforderungen gestellt.

  • De-Anonymisierung Mit Hilfe weiter Daten ist es ggf. möglich, eine De-Anonymisierung vorzunehmen. Hierzu zählen vor allem Daten, die Personen freiwillig in sozialen Netzwerken oder im Internet allgemein posten. Siehe hierzu bspw. den folgenden Artikel auf netzpolitik.org.
  • Nicht ausreichende Pseudonymisierung Wenn man Daten bspw. mithilfe der ICD-Diagnose-Codes und einer PLZ pseudonymisiert, dann lässt sich (je nach Größe des Orts und der äußeren Sichtbarkeit der Diagnose) eine Person identifizieren. Gehen wir bspw. von einem Trisomie-21-Patienten in einem 500-Seelen-Dorf aus, dann lässt sich schon allein aufgrund der geringen Auftrittswahrscheinlichkeit dieser Erkrankung die potentiell eine Person unter den 500 ermitteln. Deshalb habe ich eingangs erwähnt, dass es schlecht ist, die personenbezogenen Daten mit in das Pseudonym aufzunehmen.
  • Rechte der Betroffenen Meistens bestehen Interessenskonflikte zwischen dem Recht auf informationelle Selbstbestimmung und dem Interesse an einer Datenauswertung (z. B. zur Bekämpfung von CoViD-19). Man muss abwägen, welches Recht in diesem Fall überwiegt.

6. Techniken zur Pseudo- und Anonymisierung

Es gibt verschiedene Ansätze zur Pseudo- und Anonymisierung von Datensätzen. Hierbei müssen jeweils die identifizierenden Merkmale gelöscht (bei der Anonymisierung) oder voneinander getrennt werden (bei der Pseudonymisierung), sodass die dahinterstehende Person geschützt ist. Wir haben auch schon gesehen, dass das nicht immer leicht und teilweise gar nicht möglich ist.

Daten müssen hierbei oft verfälscht werden, um einen geeigneten Code für die Pseudonymisierung zu generieren. 

  • Beim Wohnort könnte man nur die Postleitzahl oder sogar nur die erste Ziffer der Postleitzahl verwenden oder diese modifizieren
  • Geburtsdaten könnten nur auf die Jahreszahl oder auf ein bestimmtes Zeitintervall (z. B. drei Jahre) angegeben werden 
  • Man könnte Einzelwerte zu kumulierten Gesamtwerten zusammenfassen

Wichtig bei all diesen Vorgehensweisen ist, dass man im Nachhinein mit den Daten noch etwas anfangen kann und dass die Schlüssel eindeutig sind. Wie beim Hashing ist eine Kollision von Schlüsseln fatal.

Als geeignetes Maß zur Bewertung des Anonymisierungs- bzw. Pseudonymisierungsgrads dient die k-Anonymität.