Apple utilise la confidentialité différentielle sur vos iPhone, pour quoi faire ?
Le monde moderne fonctionne sur les mégadonnées, les ensembles de données massifs sont utilisés par les gouvernements, les entreprises et les chercheurs pour mener des analyses, découvrir des modèles et orienter la prise de décision.
En ce qui concerne l’analyse des données, plus il y en a et mieux c’est : plus les données incorporées sont de haute qualité, plus l’analyse sera fiable. L’analyse de données à grande échelle devient de plus en plus puissante grâce à l’apprentissage automatique et présente un large éventail d’avantages notamment dans l’industrie du mobile. Les opérateurs l’utilisent depuis longtemps.
Le big data des télécommunications enregistre des milliards de comportements clients depuis des années dans le monde. Exploiter le Big Data pour augmenter l’expérience des clients pour des profits plus élevés devient une des tâches importantes pour les opérateurs de télécommunications. Les opérateurs de télécommunications visent à construire de grandes plates-formes de données pour analyser les modèles de comportement du cycle de vie des clients pour la veille stratégique. Pour les clients, la plupart des données des opérateurs télécoms sont sensibles à la confidentialité, comme les enregistrements détaillés des appels.
Mais il y a un inconvénient au big data, c’est qu’il nécessite l’agrégation de grandes quantités d’informations personnelles potentiellement sensibles. Qu’il s’agisse d’accumuler des dossiers médicaux, des profils sur les réseaux sociaux ou de suivre les transactions bancaires, les data scientists risquent de mettre en péril la vie privée des personnes dont ils collectent les dossiers. Et une fois que les données sont stockées sur un serveur, elles peuvent être volées, partagées ou compromises.
La confidentialité différentielle (également appelée epsilon indistinguishability) a été développée pour la première fois en 2006 par Cynthia Dwork, Frank McSherry, Kobbi Nissim et Adam Smith. Ils ont défini la confidentialité différentielle comme étant obtenue lorsque le résultat de toute analyse est essentiellement également probable, indépendamment du fait qu’un individu rejoigne ou s’abstienne de rejoindre l’ensemble de données.
Il existe des situations où Apple peut améliorer l’expérience utilisateur en obtenant des informations d’après ce que font les utilisateurs, par exemple :
Quels nouveaux mots sont à la mode et pourraient faire les suggestions les plus pertinentes ?
Quelles applications, sites Web ont des problèmes qui pourraient affecter la durée de vie de la batterie ?
Quels emoji sont choisis le plus souvent ?
…
Le défi est que les données susceptibles de fournir des réponses à ces questions, telles que ce que les utilisateurs saisissent sur leurs claviers, sont personnelles.
Un système préservant la vie privée ?
Apple a adopté et développé une technique connue dans le monde académique comme la confidentialité différentielle locale, avoir un aperçu de ce que font les utilisateurs d’Apple sur leur iPhone, tout en aidant à préserver la confidentialité des utilisateurs individuels. C’est un technique qui permet à Apple de se renseigner sur la communauté d’utilisateurs sans cibler les individus de la communauté. La confidentialité différentielle transforme les informations partagées avec Apple avant qu’elles ne quittent l’appareil de l’utilisateur de sorte qu’Apple ne puisse jamais reproduire les vraies données.
La technologie de confidentialité différentielle utilisée par Apple est enracinée dans l’idée que les statistiques peuvent masquer les données individuelles d’un utilisateur avant qu’elles ne soient partagées avec Apple. Si plusieurs personnes soumettent les mêmes données, « le bruit » qu’elle donne qui a été ajouté peut faire la moyenne sur un grand nombre de points de données, et Apple peut voir, des informations émergent. La confidentialité différentielle est utilisée comme première étape d’un système d’analyse de données qui comprend la protection de la confidentialité à chaque étape. Le système est opt-in et conçu pour fournir une vraie transparence pour l’utilisateur. La première étape consiste à privatiser les informations en utilisant la confidentialité différentielle locale sur l’appareil de l’utilisateur.
Le but de la privatisation est d’assurer que les serveurs d’Apple ne reçoivent pas de données claires. Les identifiants d’appareils sont supprimés des données et celles-ci sont transmises à Apple via un canal chiffré. L’analyse Apple ingère les contributions différentiellement privées, abandonnant les adresses IP et autres métadonnées. La dernière étape est l’agrégation, où les enregistrements privatisés sont traités pour calculer les statistiques pertinentes et les statistiques agrégées sont ensuite partagées avec les équipes d’Apple. Les étapes d’ingestion et d’agrégation sont effectuées dans un environnement d’accès restreint, de sorte que même les données privatisées ne sont pas largement accessibles aux employés d’Apple. Apple conserve les données collectées pour un maximum de trois mois.
Apple utilise actuellement deux techniques spécifiques : Count Mean Sketch et Hadamard Count Mean Sketch.
On peut se poser 2 questions :
- À quel point les données anonymisées sont-elles anonymes ?
- Pouvons-nous avoir confiance dans le stockage de nos données ?
Apple utilise la confidentialité différentielle locale pour aider à protéger la confidentialité de l’activité des utilisateurs sur une période de temps donnée, tout en acquérant un aperçu qui améliore l’intelligence et l’utilisabilité de fonctionnalités telles que :
- Suggestions QuickType
- Suggestions d’emoji
- Recherche d’astuces
- Domaines qui ont un impact sur l’énergie de Safari
- Détection d’intention de la lecture automatique sur Safari (macOS High Sierra)
- Safari Crashing Domains (iOS 11)
- Utilisation de l’usage de l’app santé (iOS 10.2)