Differential Privacy: Apples Kompromiss zwischen Datensammeln und Datenschutz
Apple sieht sich selbst als Speerspitze der Tech-Branche, wenn es um den Datenschutz der Endkunden geht. Das hat der Konzern nicht zuletzt in dem hitzigen Konflikt mit dem FBI Anfang des Jahres klar gemacht. Aber Apple befindet sich in einer Zwickmühle: Für viele neue Funktionen sind Nutzerdaten unerlässlich, beispielsweise die proaktiven Siri-Wortvorschläge in iOS QuickType.
Möglichst keine Datenkrake seinAllerdings möchte Apple nicht die Datensammelwut der Konkurrenten rund um Google und Facebook kopieren. Einen Ausweg soll »Differential Privacy« aufzeigen, einem Begriff, der von Aaron Roth von der University of Pennsylvania geprägt wurde. Die Idee hinter dem Konzept: Sammle Daten über eine anonyme Masse an Nutzern, aber keine über einen einzelnen. Doch wie soll das gehen?
Methoden von Differential PrivacyCraig Federighi ist auf der gestrigen Keynote kurz auf diese Frage eingegangen. Dabei nannte er kursorisch drei Möglichkeiten, um die von iOS an die Apple-Server gesendeten Daten zu anonymisieren: Hashing, Subsampling und Noise Injection.
- Der Begriff »Hashing« beschreibt die Übertragung von Daten in einen String von Zufallszeichen. Da mehrere Daten in den gleichen String umgewandelt werden können, ist eine Umkehrung nicht möglich (mathematisch ausgedrückt: Die Abbildung ist nicht injektiv und damit nicht invertierbar).
- Mit Subsampling ist die nur teilweise Übermittlung der aufgenommenen Daten gemeint.
- Noise Injection, wörtlich Störungseinfügung, flechtet zu einem gewissen Prozentsatz unbrauchbare Daten ein. Diese können in einer großen Datensammlung herausgerechnet werden, nicht aber bei einzelnen Übermittlungen.
Beispiel für Differential PrivacyAnhand einer Umfrage mit Ja-Nein-Antwortmöglichkeiten lässt sich das Konzept recht plastisch beschreiben. Ein Teilnehmer der Umfrage wird aufgefordert, die Frage zu beantworten, ob er schon einmal das Gesetz übertreten hat. Allerdings ist zunächst ein Würfel zu werfen und nur bei einer 1, 2 oder 3 soll er wahrheitsgemäß antworten. Bei einer 4 oder 5 soll er unabhängig vom Wahrheitsgehalt einfach Nein sagen, bei einer 6 dagegen Ja. Damit wären 50 Prozent der eingehenden Nutzerdaten »Störungen«, weil sie unwahr sind. Bei einer riesigen Anzahl von Nutzerdaten lässt sich der Erwartungswert der falschen Daten herausrechnen (Gesetz der großen Zahlen) und man erhält ein relativ vertrauenswürdiges Ergebnis, ohne bei einem einzelnen Wert zu wissen, ob er tatsächlich stimmt oder nicht.
Datenschutz »beweisen«Ziel von Differential Privacy ist es, mathematisch beweisen zu können, dass Rückschlüsse auf den einzelnen Nutzer unmöglich sind. Anders wäre das Ganze nämlich beispielsweise dann, wenn die Daten lediglich anonymisiert, also ohne Angaben des Namens oder individuenspezifischer Daten, übermittel würden. Wie diverse Beispiele aufzeigten, können findige Datenschnüffler doch durch Querverweise und andere Daten die ursprünglichen Nutzer wiederentdecken. Genau das soll Differential Privacy ausschließen.
Lob und Kritik aus der ProfessorenschaftDer von Federighi gestern explizit genannte Professor Roth hat eine kurze Vorführung des Apple-Konzepts erhalten. Der Erfinder des Begriffs »Differential Privacy« sei daraufhin begeistert gewesen und habe Apple die Führerschaft auf dem Gebiet des Datenschutzes attestiert, sagte Federighi. Gegenüber Wired gab der Professor
aber an, nicht genug Einblick gehabt zu haben, um einen seriösen Kommentar abzugeben. Andere Akademiker wie der Kryptographie-Professor der John Hopkins University, Matthew Green,
bezweifeln allerdings, dass Apples Ansatz so sicher ist wie behauptet. Das verwendete Konzept habe eine gute theoretische Grundlage, sei aber in der Praxis bislang ungetestet. Dies wäre aber absolut notwendig, bevor eine massenhafte Ausweitung erfolgt, wie sie eine Implementierung in iOS bedeuten würde.