iOS 10 und Sicherheit: Das steckt hinter dem Begriff Differential Privacy

Datenschutz, Code, XcodeGhost
Datenschutz, Code, XcodeGhost (© 2015 Flickr/r2hox )
31

Sorry, FBI! Apple wird mit iOS 10 die Differential Privacy einführen. Wir erklären Euch, was es mit dieser neuen Form des Datenschutzes auf sich hat. 

Als Apple Anfang des Jahres in den Fokus vom FBI geriet, weil sie ein iPhone eines mutmaßlichen Terroristen entsperren sollten, trat der Konflikt weltweit eine Debatte über Datenschutz und Privatsphäre los. Denn wenn Apple sich gebeugt hätte, wäre der Schutz für alle iPhone-Nutzer nutzlos geworden.

Was steckt dahinter?

Auf der WWDC hat Apple angekündigt, dass zum Beispiel Siri verbessert wird. Das bedeutet im Umkehrschluss aber auch, dass mehr Daten über Euch und Euer Nutzungsverhalten aufgezeichnet werden. Denn nur so können künstliche Intelligenzen verbessert werden. Doch mit Differential Privacy sollen Eure ganz persönlichen Daten auf Apples Servern derart verschleiert und in Daten-Sets gespeichert werden, dass sie nicht zu Euch als Individuum zurückverfolgt werden können, falls sich jemand Zugriff auf Apples Server verschafft.

Differential Privacy ist der statistische Versuch, zu beweisen, dass viel über eine Gruppe zu lernen möglich ist, ohne den einzelnen Menschen darin identifizieren zu können.

Heißt das jetzt, dass Apple quasi nur unsere Namen löscht, aber alles, was wir an Daten produzieren, speichert? Nein. Netflix fiel 2007 beispielsweise negativ auf, weil sie für einen Wettbewerb Nutzerdaten mit Bewertungen für Filme herausgegeben haben. In diesem Datensatz hat Netflix lediglich die Namen der Nutzer entfernt. Clevere Leute konnten diese aber größtenteils wiederherstellen, weil die Nutzer gleiche oder ähnliche Bewertungen in der Datenbank des Filmportals IMDB hinterlassen hatten. Um durch diese Datenbank-Kreuzungen nicht doch an privaten Informationen zu kommen, wurde Differential Privacy erschaffen. Entwickelt hat die Idee von Cynthia Dwork, einer Informatikerin und Forscherin bei Microsoft, und Aaron Roth, einem Informatik-Professor der Universität von Pennsylvania.

Ein Beispiel

Die Algorithmen für Differential Privacy sind sehr komplex. Wir versuchen das Konstrukt im folgenden sehr vereinfacht darzustellen. Die genauen Details könnt Ihr in einer wissenschaftlichen Abhandlung der beiden Informatiker nachlesen.

Stellen wir uns die CURVED-Redaktion mal als Datenbank vor, in der wir erfassen, welcher Redakteur täglich in der WhatsApp-Gruppe das Einhorn-Emoticon benutzt. Eine "1" steht hier als Boolean-Variable für "ja":

Marco: 1
Felix: 1
Jan: 0
Steffi: 1

Jetzt könnten wir zum Beispiel die Anfragen starten:

    • Wie viele Redakteure haben heute das Einhorn verschickt? Wir erhalten: 3
    • Wie viele Redakteure außer Steffi haben das Einhorn verschickt? Wir erhalten: 2

Beide Fragen einzeln sind gut für die Privatsphäre, da wir bei keiner Rückschlüsse auf die Antworten der jeweiligen Personenangaben erhalten. Doch beide Abfragen in Kombination verraten uns eindeutig, dass Steffi heute das Emoji verschickt hat.

Wenn Apple jetzt diese Daten von uns sammelt, werden sie nicht, wie oben in der Tabelle, so klar und eindeutig übermittelt. Vor dem Upload auf deren Server werden unsere Daten transformiert und in einer differentiell privaten Form gesendet. Zuerst wird ein Teil der Daten gehasht. Das bedeutet, sie werden in Zeichenketten umgewandelt, die unmöglich wieder in ihren ursprünglichen Zustand konvertiert werden können.

So sind unsere Daten erstmal verschlüsselt. Doch sie müssen auch noch anonymisiert werden. Die Idee hinter Differential Privacy ist nun, dass wir mehrere Datenbanken haben: In einer steht unser Ergebnis drin, in den anderen nicht. Außerdem sollen weitere Datensätze mit zufälligem mathematischen Rauschen hinzugefügt werden. Das ist, als würden wir eine Münze nehmen und werfen. Ist das Ergebnis "Zahl", dann antworten wir ehrlich. Ist es "Kopf", werfen wir die Münze nochmal und schreiben "ja" als Antwort, falls beim zweiten Wurf "Zahl" erscheint. Dieses Rauschen kann am Ende mathematisch herausgerechnet werden. Bei der Auswertung werden zudem nicht immer vollständige Datenbanken analysiert. Manchmal wird nur ein Teil davon betrachtet.

Somit weiß Apple am Ende, dass die meisten Nutzer (in unserem Beispiel) jeden Tag das Einhorn-Emoji verschicken. Ihr habt zwar zu dieser statistischen Erhebung beigetragen, doch in der Theorie kann Apple nicht sagen, dass Ihr persönlich auch jeden Tag das Einhorn-Emoji benutzt.

Unser Beispiel ist eine allgemeine Möglichkeit, Differential Privacy zu verstehen. Wie genau Apple diese Algorithmen einsetzt, ist noch nicht bekannt. Hier müssen wir abwarten, bis mehr Details veröffentlicht werden, um einschätzen zu können, wie gut es im Detail funktioniert. Apple selbst sagte dazu bisher nur:

"Mit iOS 10 nutzt Apple die Differential Privacy-Technologie, um das Nutzerverhalten von vielen auszuwerten, ohne ihre individuelle Privatsphäre zu kompromittieren. Um die Identität einer Person zu verschleiern, fügt Differential Privacy einem kleinen Teil der Nutzerdaten mathematisches Rauschen hinzu. Da immer mehr Leute dasselbe Muster verwenden, entstehen generelle Muster, mit denen wir die User Experience verbessern können."

Wofür will Apple Daten sammeln?

Auf der WWDC sprach Apple davon, die Empfehlungen seiner QuickType-Tastatur verbessern zu wollen. Außerdem möchte man untersuchen, ob bestimmte Wörter sehr häufig durch bestimmte Emojis ersetzt werden. Auch Vorschläge für Notizen in der "Notes"-App und die Spotlight-Suche sollen erweitert werden. Wenn wir beispielsweise immer dasselbe Lied einer Band hören und dann einen Teil des Titels in die Suche eingeben, könnte ein Link zu Apple Music oder Spotify oder ähnlichen Plattformen, je nachdem welche Ihr nutzt, erscheinen.

Nicht verpflichtend für Nutzer

Die gute Nachricht: Apple hat sich dazu entschieden, Differential Privacy in iOS 10 ab September nicht verpflichtend zu machen. Ihr müsst der Datenerhebung eigenständig zustimmen, bevor sie bei Euch angewandt wird, sagte das Unternehmen zu Recode. Das ist ein großer Vorteil gegenüber Google. Bei deren Messenger Allo seid Ihr automatisch das Subjekt, dessen Daten analysiert werden.

Zusätzlich hat Apple betont, dass sie keine Fotos aus Eurer Cloud auswerten werden, um die eigenen Bilderkennungsalgorithmen zu verbessern. Die in iOS 10 integrierte Gesichts- und Szenen- bzw. Objekterkennung funktioniert nur lokal auf Euren Geräten.

Wie findet ihr das? Stimmt ab!
Weitere Artikel zum Thema