Apple a développé une technique utilisant des données synthétiques comparées localement aux données réelles des utilisateurs. Traditionnellement, l'entraînement des modèles d'IA nécessite l'accès à de vastes ensembles de données, souvent collectées auprès des utilisateurs. Apple fait un pas de côté avec une nouvelle pratique dans laquelle les appareils comparent des données synthétiques à des échantillons locaux, tels que des e-mails ou des messages récents. Seul un signal indiquant la correspondance la plus proche est envoyé à Apple, garantissant que les données personnelles ne sont jamais transmises.

Prenons le cas d'un résumé de mail réalisé par IA. Apple crée tout d'abord différents types de mails synthétiques, correspondant à de nombreux cas de figure rencontrés dans la vie courante (par exemple : « Jouons au tennis ce soir à 18H. »), et créé ensuite des intégrations (ou embeddings), incluant des données comme la longueur du mail, son sujet ou le langage utilisé.

Seuls les utilisateurs dont l'analyse des appareils est activée reçoivent ces signaux (appelés embeddings). L'iPhone de ces personnes va alors comparer les embeddings reçus par rapport au mail réel affiché et traité par Apple Intelligence et déterminer lequel est le plus proche de l'e-mail réel.

Apple utilise ensuite la confidentialité différentielle, une technique qui introduit des éléments aléatoires dans les ensembles de données pour empêcher l'identification des utilisateurs et déterminer quelles intégrations synthétiques sont les plus fréquemment sélectionnées sur tous les appareils. Elle connaît ainsi la formulation la plus courante des e-mails sans jamais consulter les e-mails des utilisateurs et sans savoir quels appareils spécifiques ont sélectionné les intégrations les plus similaires.