Informationen

01. March 2022

Zielsetzung von TRESOR

In Deutschland gibt es bereits jetzt über 60 Millionen Smartphone-Nutzer*innen und die Tendenz ist weiter steigend1. Smartphones und andere mobile Geräte sind elementarer Bestandteil unseres alltäglichen Lebens und damit einhergehend die umfangreiche Erhebung von zahlreichen Nutzer- und Sensordaten. Nicht nur Betriebssystemhersteller, auch App-Anbieter sammeln umfassend Daten und laut einer Studie aus 2017 teilen sieben von zehn Apps Daten mit Dritten.

Für Einzelne ist es daher nur noch schwer nachvollziehbar, welche Daten über die eigene Person gesammelt und mit wem diese geteilt werden. Daran hat auch die Einführung der europäischen Datenschutzgrundverordnung nur wenig geändert, die zwar zu mehr Transparenz geführt, die ungezügelte Datensammlung aber nicht unterbunden hat. Dabei stellt die Souveränität über die eigenen Daten, also zu bestimmen, welche Daten über die eigene Person, von wem gesammelt und mit wem diese im Anschluss geteilt werden, eine wichtige Grundlage für die freie Entfaltung von Individuen in unserer Gesellschaft dar. Die Tatsache, dass Daten zudem bei großen Organisationen nicht immer sicher aufgehoben sind, zeigen zahlreiche Beispiele von Datendiebstählen aus der direkten Vergangenheit. Die Hersteller der großen Plattformen haben mittlerweile reagiert. Die Datensammlung in Apple iOS ist bereits seit einiger Zeit eingeschränkt und auch in Google Android ist seit Version 10 das verborgene Abgreifen von Nutzerdaten beispielsweise durch regelmäßige Rückfragen zu vergebenen Berechtigungen erschwert worden.

Es gibt allerdings ein legitimes Interesse, weiter Nutzerdaten zu sammeln. Dies sollte auch nicht nur Anbietern großer Plattformen vorbehalten bleiben, denn schließlich liegt immenses Potential für Forschung, Entwicklung und Innovation in den Daten, die auf mobilen Geräten erhoben werden. Bewegungs- oder Sensordaten können weitreichende Einblicke in die Gesellschaft liefern und bieten großes Potenzial für die gemeinwohlorientierte Forschung, z.B. für die Optimierung von Verkehrsflüssen, beim Ausbau von Mobilfunknetzen. Allerdings gilt es dazu Nutzer*innen mobiler Geräte besser zu informieren und Anreize zu setzen, die eigenen Daten souverän zur Verfügung zu stellen.


Abbildung 1: Schematische Darstellung des Datentreuhandmodells im Projekt TRESOR.

Genau diese Herausforderungen kann ein Datentreuhänder (DT) lösen. Dazu speichert dieser Daten von Datengebenden auf sichere Art und Weise und gibt diese erst nach expliziter und zweckgebundener Zugriffserlaubnis durch die Datengebenden an interessierte Datennutzende weiter. Ein zentralisierter DT mit vollem Zugriff auf die gespeicherten und verarbeiteten Nutzerdaten stellt jedoch ein großes Risiko für den Datenschutz und ein lukratives Angriffsziel dar. Daher gilt es, den Zugriff auf Nutzerdaten durch geeignete IT-Sicherheitstechniken zu schützen, so dass selbst der Datentreuhänder die bei ihm hinterlegten Daten nicht direkt lesen kann. Um einen späteren Zugriff von Datennutzenden zu ermöglichen, muss der DT neben den eigentlichen Daten auch Metadaten in Form von Datentypen speichern. Diese gilt es ebenfalls geeignet zu schützen bzw. zu anonymisieren, damit der DT zwar Datennutzende und Datengebende zusammenbringen kann, aber keine Nutzer*innen deanonymisieren und keine Rückschlüsse über die hinterlegten Daten ziehen kann. Ein solches ganzheitliches DT-Modell ist bisher noch wenig erforscht. Daher ist das Ziel des Projekts TRESOR, einen übergeordneten DT-Dienst gemäß Abbildung 1 zu entwickeln. Dieser Dienst soll es einem DT erlauben, von Mobilgeräten erhobene Daten zu speichern und nur nach Bedarf und unter Einhaltung von Datensicherheit und striktem Datenschutz herauszugeben.

Eine Data Vault App (Abb. 1, links), die sich Nutzer*innen auf ihren mobilen Geräten installieren, informiert diese umfassend über die Datenverwertung und holt deren aktive Zustimmung ein. Nutzerdaten werden vornehmlich auf den Endgeräten vorgehalten oder aber verschlüsselt direkt beim Datentreuhänder (Abb. 1, mitte) abgelegt. Datennutzende (Abb. 1, rechts) authentisieren sich gegenüber dem DT und können anschließend Daten zur Verwertung anfragen. Stimmen die Datengebenden zu, werden die verschlüsselten Nutzerdaten an den Datennutzenden übermittelt. Die Schlüssel für die Entschlüsselung der Nutzerdaten übertragen Datengebende direkt an den Datennutzenden, ohne dass der DT Zugriff erhält. Zusätzlich kommen privatsphäreschützende Techniken zum Einsatz, um verschlüsselte oder maskierte Daten auch direkt verarbeiten und vermitteln zu können. Darüber soll auch eine sichere Möglichkeit zur Bewertung der Vertrauenswürdigkeit von Datengebenden und deren Daten durch die Datennutzenden geschaffen werden. Um Datengebende vor einer Deanonymisierung durch Datennutzende zu schützen, werden wir im Projekt die Integration von Differential Privacy und l-Diversity auf der Basis von Secure Multi-Party Computation (MPC) untersuchen. Um die Datenqualität zu erhöhen und der App eine Filterung von anomalen Datenwerten zu ermöglichen, soll ein anonymer Abgleich von Daten zwischen mobilen Geräten ebenfalls mithilfe von MPC möglich gemacht werden.

Der zu entwickelnde Datentreuhanddienst wird im Projekt einer Praxisintegration unterzogen, und zwar für den kommerziellen Bereich durch den DT umlaut und für Forschungsdaten durch den DT HITeC. Dazu sollen die im Projekt zu entwickelnden Methoden und Verfahren in ausgewählten Applikationen und Szenarien praxisnah mit Nutzer*innen getestet werden. Zur Beantwortung projektrelevanter Fragestellungen setzt der Partner umlaut im wirtschaftlichen Kontext bereits seit 2018 die hauseigenen Smartphone-Crowd-Daten ein. Diese Daten werden unter strikter Berücksichtigung der DSGVO derzeit über ein speziell entwickeltes SDK passiv und permanent auf globaler Ebene über Smartphone-Apps erhoben. Mögliche Szenarien für eine Reallabor-Evaluation sind dabei beispielsweise der von umlaut geplante The Good Turn Index2 zur Quantifizierung des Mobilitätsverhaltens von Bürgern und der ganzen Kommune oder die Erhebung von Daten zur Bestimmung der Mobilfunknetzabdeckung3. Über den Partner HITeC als gemeinnützigen Verein planen wir zudem die Erprobung der DT-Lösung für Forschungsdaten. Hierfür werden wir zum Ende des Projektes ein geeignetes HITeC-Projekt für eine Reallabor-Evaluierung auswählen, z.B. aus dem Bereich Gesundheit. Folglich kann somit die Integration echter Nutzer*innen in praxisorientierte Lösungen sichergestellt und den Anforderungen an ein Reallabor Rechnung getragen werden.


Einordung in den Stand von Wissenschaft und Technik

Mobile Sicherheit und Datenschutz

Neben der starken gegenseitigen Isolation der Daten verschiedener Apps, bieten moderne mobile Betriebssysteme Nutzer*innen die Möglichkeit, zahlreiche Berechtigungen wie den Zugriff auf bestimmte Daten, Sensoren oder Funktionen zu verwalten. Auf älteren mobilen Betriebssystemen müssen Anwender der App zum Installationszeitpunkt Berechtigungen erteilen, welche die jeweilige App dann unwiderruflich bis zur Deinstallation nutzen kann. Aktuelle mobile Betriebssysteme erlauben mittlerweile eine flexible Verwaltung von App-Berechtigungen. Dennoch ist es für Nutzer*innen nicht direkt ersichtlich, mit wem erhobene Daten geteilt werden. Häufig erhalten neben dem App-Anbieter noch dritte Parteien wie Analytics-Firmen oder Werbepartner Zugriff auf sensible Nutzerdaten wie z.B. Standort- oder Sensordaten. Im Rahmen dieses Projekts soll eine Data Vault App entwickelt werden, die Nutzerdaten erhebt und trotzdem eine privatsphäreschützende, sichere und selbstbestimmte Verwertung ermöglicht. Dazu wird die explizite Zustimmung zur Datennutzung der Smartphone-Nutzer*innen eingeholt und transparent gemacht, wer Zugriff auf diese Daten erhält.

Sicheres und privatsphäreschützendes Daten-Management

Die Auslagerung und Archivierung von Daten ist ein aktives Forschungsthema. Unsere DT-Architektur wird dazu aktuelle Forschungsergebnisse aufgreifen und erweitern. Ein Grundbaustein ist die Verschlüsselung von Daten, um deren Vertraulichkeit zu wahren, für das wir auf etablierte Standards setzen wollen. Zum Schutz der Anonymität der Datengeber können gesammelte Daten vor der Auslagerung zum DT entsprechend vorverarbeitet werden. Eine naheliegende Lösung ist hierbei die Aggregation von mehreren Datenpunkten oder die Verringerung der Präzision, um bspw. genaue Standortdaten zu verschleiern. Dazu können die Projektpartner auf eigene Vorarbeiten, z.B. aus dem Idomeneo- und Rabatt-Projekt4 des Innovationssausschusses der G-BA, zurückgreifen. In jedem Fall werden der DT oder Datennutzende keinen direkten Zugriff auf Nutzerdaten haben ohne vorher eine explizite und zweckgebundene Zustimmung eingeholt zu haben. Aus dem Forschungsbereich des Identitäts- und Zugriffsmanagement soll der DT bereits existierende Techniken einsetzen, um Datennutzende zu validieren. Ähnlich einer Certificate Authority wie bspw. Let’s encrypt5 können Identitäten (E-Mail-Adressen, Telefonnumern, Domainnamen, existierende Zertifikate, etc.) überprüft und validiert werden und so die Authentizität von Anfragen verifiziert werden. Für diese Techniken wird bspw. auf die Resultate aus dem EU-Projekt CREDENTIAL6 aufgebaut, welches sichere Identitätslösungen für Cloud-Umgebungen erforscht hat.

Privatsphäreschützende Technologien

Wir planen im Projekt verschiedene weiterführende privatsphäre-schützende Techniken einzusetzen, um den Schutz der Nutzerdaten zu gewährleisten, adäquat abzusichern und gleichzeitig eine effiziente Datenverarbeitung zu ermöglichen. In den letzten Jahren gab es auf diesem Gebiet bspw. im EU Projekt PRISMACLOUD7 größere Fortschritte zum Schutz cloud-basierter Dienste, auf denen wir aufbauen werden. Einige vielversprechende Technologien, deren Einsatz wir für unser Projekt evaluieren werden, sind: Differential Privacy (DP) wird genutzt, um Nutzeranonymität in größeren Datensätzen zu gewährleisten. Federated Learning (FL) ermöglicht das verteilte und private Trainieren von Modellen für maschinelles Lernen, welches ein interessanter Anwendungsfall für Nutzerdaten sein kann. Secure Multi-Party Computation (MPC) erlaubt es mehreren Parteien gemeinsam, auf privaten Eingabedaten Berechnungen durchzuführen. Wir sehen hierfür die direkte Anwendbarkeit in der privaten Verarbeitung von Nutzerdaten, wobei ggf. bestehende Implementierungen genutzt und weiterentwickelt werden können. Aufbauend auf die aktuelle Forschung werden wir untersuchen wie DP eingesetzt werden kann, um zu gewährleisten, dass einzelne Datengebende in einer Menge von Datensätzen nicht identifizierbar sind. Hierfür könnte es notwendig sein, ein MPC-Protokoll auszuführen, um die für DP nötigen globalen Parameter über die Gesamtdatenmenge zu ermitteln. Ein Spezialfall von MPC sind Protokolle zur privaten Schnittmengenberechnung (PSI), die genutzt werden, um sicher Datenmengen abgleichen zu können. Wir werden solche Protokolle für die anonyme Kopplung zwischen Datengebenden und Datennutzenden verwenden und entsprechend anpassen. Homomorphe Verschlüsselung (HE) erlaubt es, Berechnungen direkt auf verschlüsselten Daten auszuführen. Dies ermöglicht beispielsweise die private Aggregierung von sensiblen Nutzerdaten. Blockchain-basierte Lösungen eignen sich zur fälschungssicheren Archivierung von Daten, für die Realisierung von Krypto-Währungen, sowie zur Konsensfindung in verteilten Systemen. Wir sehen zwar kein Potential für die direkte Anwendung einer Blockchain-Lösung zur Realisierung unseres dezentralen DT-Dienstes, wohl aber für die Integration von Blockchain-Technologien wie Hash-Trees, die Integrität gewährleisten und so vor Manipulationen schützen können. Ähnliche Ansätze werden auch im BMBF-geförderten Projekt TrustDBle8 verfolgt. Häufig wird einfache Pseudonymisierung genutzt, um Identitäten zu verschleiern, also bspw. die Ersetzung von Nutzernamen durch zufällig gewählte, aber gleichbleibende IDs. Die Forschung hat jedoch gezeigt, dass bei ausreichend großer Datenmenge dennoch Rückschlüsse auf den Datenursprung möglich sind9. Der Einsatz von geeigneten starken Anonymisierungslösungen wie Differential Privacy soll daher evaluiert werden, damit die Privatsphäre von Nutzerdaten nachhaltig geschützt werden kann.

Datentreuhanddienste

Die CenTrust-Lösung der Bundesdruckerei10 stellt bereits eine Umsetzung eines DT zur Verfügung und wird vor allem im Kontext der Medizindaten und im B2B-Bereich Anwendung finden. Die hier vorgestellte Lösung unterscheidet sich vom Ansatz von CenTrust insofern, als dass sämtliche Anonymisierung und Verschlüsselung bereits auf der Seite der Datengebenden stattfindet. Darüber hinaus liegt der Fokus bei TRESOR auf dem C2B-Bereich und auf Forschungsdaten, konkret auf der Nutzbarmachung von Daten, die auf mobilen Geräten erhoben wurden. Das EU-Projekt Trusted Secure Data Sharing Space (TRUSTS)11 beleuchtet unter anderem ethische Aspekte, um das Vertrauen in den Datenmarkt zu stärken. Wir werden die Erkenntnisse aus TRUSTS in die Entwicklung unseres DT-Dienstes einfließen lassen, um Vertrauen zu schaffen und dadurch die Verbreitung des DT-Dienstes zu fördern. Die sichere Verarbeitung von Daten in verteilten Clouds wurde im EU Projekt SUNFISH12 betrachtet, dessen Resultate zum Thema Nutzerauthentifikation und sichere Datenspeicherung wir verarbeiten werden.


1 https://de.statista.com/themen/6137/smartphone-nutzung-in-deutschland/
2 https://www.umlaut.com/de/stories/the-good-turn-news
3 https://www.umlaut.com/de/benchmarking/deutschland
4 https://idomeneo.de/
5 https://letsencrypt.org/
6 https://credential.eu/
7 https://prismacloud.eu/
8 https://www.forschung-it-sicherheit-kommunikationssysteme.de/projekte/trustdble
9 https://arstechnica.com/tech-policy/2014/06/poorly-anonymized-logs-reveal-nyc-cab-drivers-detailed-whereabouts/
10 https://www.toolpool-gesundheitsforschung.de/produkte/centrust-unabhaengiger-datentreuhaender-der-bundesdruckerei
11 https://cordis.europa.eu/project/id/871481/de
12 http://www.sunfishproject.eu/