Protection des données de navigation Web contre les pirates

Les agents malveillants peuvent utiliser l’apprentissage automatique pour lancer de puissantes attaques qui volent des informations de manière difficile à prévenir et souvent encore plus difficile à étudier.

Les attaquants peuvent capturer des données qui « fuient » entre des programmes logiciels exécutés sur le même ordinateur. Ils utilisent ensuite des algorithmes d’apprentissage automatique pour décoder ces signaux, ce qui leur permet d’obtenir des mots de passe ou d’autres informations privées. Celles-ci sont appelées «attaques par canal latéral» car les informations sont acquises via un canal non destiné à la communication.

Des chercheurs du MIT ont montré que les attaques par canal latéral assistées par l’apprentissage automatique sont à la fois extrêmement robustes et mal comprises. L’utilisation d’algorithmes d’apprentissage automatique, qui sont souvent impossibles à comprendre pleinement en raison de leur complexité, est un défi particulier. Dans un nouvel article, l’équipe a étudié une attaque documentée dont on pensait qu’elle fonctionnait en capturant les signaux divulgués lorsqu’un ordinateur accède à la mémoire. Ils ont découvert que les mécanismes derrière cette attaque étaient mal identifiés, ce qui empêcherait les chercheurs de concevoir des défenses efficaces.

Pour étudier l’attaque, ils ont supprimé tous les accès à la mémoire et ont remarqué que l’attaque devenait encore plus puissante. Ensuite, ils ont recherché des sources de fuite d’informations et ont découvert que l’attaque surveillait en fait les événements qui interrompent les autres processus d’un ordinateur. Ils montrent qu’un adversaire peut utiliser cette attaque assistée par machine learning pour exploiter une faille de sécurité et déterminer le site Web qu’un utilisateur navigue avec une précision presque parfaite.

Avec ces connaissances en main, ils ont développé deux stratégies qui peuvent contrecarrer cette attaque.

« L’accent de ce travail est vraiment sur l’analyse pour trouver la cause première du problème. En tant que chercheurs, nous devrions vraiment essayer d’approfondir et de faire plus de travail d’analyse, plutôt que d’utiliser aveuglément des tactiques d’apprentissage automatique de type boîte noire pour démontrer une attaque après l’autre. La leçon que nous avons apprise est que ces attaques assistées par l’apprentissage automatique peuvent être extrêmement trompeuses », déclare l’auteur principal Mengjia Yan, professeur adjoint de développement de carrière Homer A. Burnell en génie électrique et en informatique (EECS) et membre du Computer Science. et Laboratoire d’Intelligence Artificielle (CSAIL).

L’auteur principal de l’article est Jack Cook ’22, un récent diplômé en informatique. Les co-auteurs incluent Jules Drean, étudiant diplômé du CSAIL, et Jonathan Behrens PhD ’22. La recherche sera présentée au Symposium international sur l’architecture informatique.

Une surprise secondaire

Cook a lancé le projet tout en suivant le cours de séminaire avancé de Yan. Pour un devoir de classe, il a essayé de reproduire une attaque par canal latéral assistée par l’apprentissage automatique à partir de la littérature. Des travaux antérieurs avaient conclu que cette attaque comptait le nombre de fois que l’ordinateur accède à la mémoire lorsqu’il charge un site Web, puis utilise l’apprentissage automatique pour identifier le site Web. C’est ce qu’on appelle une attaque par empreinte digitale de site Web.

Il a montré que les travaux antérieurs reposaient sur une analyse erronée basée sur l’apprentissage automatique pour identifier de manière incorrecte la source de l’attaque. L’apprentissage automatique ne peut pas prouver la causalité dans ces types d’attaques, dit Cook.

“Tout ce que j’ai fait, c’est supprimer l’accès à la mémoire et l’attaque a toujours fonctionné aussi bien, voire mieux. Alors, je me suis demandé, qu’est-ce qui ouvre réellement le canal latéral ? » il dit.

Cela a conduit à un projet de recherche dans lequel Cook et ses collaborateurs se sont lancés dans une analyse minutieuse de l’attaque. Ils ont conçu une attaque presque identique, mais sans accès mémoire, et l’ont étudiée en détail.

Ils ont découvert que l’attaque enregistre en fait les valeurs de minuterie d’un ordinateur à intervalles fixes et utilise ces informations pour déduire à quel site Web on accède. Essentiellement, l’attaque mesure l’occupation de l’ordinateur au fil du temps.

Une fluctuation de la valeur de la minuterie signifie que l’ordinateur traite une quantité différente d’informations dans cet intervalle. Cela est dû aux interruptions du système. Une interruption système se produit lorsque les processus de l’ordinateur sont interrompus par des requêtes provenant de périphériques matériels ; l’ordinateur doit interrompre ce qu’il est en train de faire pour traiter la nouvelle requête.

Lorsqu’un site Web se charge, il envoie des instructions à un navigateur Web pour exécuter des scripts, afficher des graphiques, charger des vidéos, etc. Chacun de ces éléments peut déclencher de nombreuses interruptions du système.

Un attaquant surveillant la minuterie peut utiliser l’apprentissage automatique pour déduire des informations de haut niveau à partir de ces interruptions du système afin de déterminer quel site Web un utilisateur visite. Cela est possible car l’activité d’interruption générée par un site Web, comme CNN.com, est très similaire à chaque chargement, mais très différente des autres sites Web, comme Wikipedia.com, explique Cook.

« L’une des choses vraiment effrayantes à propos de cette attaque est que nous l’avons écrite en JavaScript, vous n’avez donc pas besoin de télécharger ou d’installer de code. Tout ce que vous avez à faire est d’ouvrir un site Web. Quelqu’un pourrait intégrer cela dans un site Web et ensuite théoriquement être en mesure d’espionner d’autres activités sur votre ordinateur », dit-il.

L’attaque est extrêmement réussie. Par exemple, lorsqu’un ordinateur exécute Chrome sur le système d’exploitation macOS, l’attaque a pu identifier les sites Web avec une précision de 94 %. Tous les navigateurs commerciaux et les systèmes d’exploitation qu’ils ont testés ont donné lieu à une attaque avec une précision de plus de 91 %.

Il existe de nombreux facteurs qui peuvent affecter la minuterie d’un ordinateur, donc déterminer ce qui a conduit à une attaque avec une telle précision revient à trouver une aiguille dans une botte de foin, dit Cook. Ils ont mené de nombreuses expériences contrôlées, supprimant une variable à la fois, jusqu’à ce qu’ils réalisent que le signal doit arriver pour les interruptions système, qui ne peuvent souvent pas être traitées séparément du code de l’attaquant.

Se défendant

Une fois que les chercheurs ont compris l’attaque, ils ont élaboré des stratégies de sécurité pour l’empêcher.

Tout d’abord, ils ont créé une extension de navigateur qui génère des interruptions fréquentes, comme le ping de sites Web aléatoires pour créer des rafales d’activité. Le bruit ajouté rend beaucoup plus difficile pour l’attaquant de décoder les signaux. Cela a fait chuter la précision de l’attaque de 96 % à 62 %, mais cela a ralenti les performances de l’ordinateur.

Pour leur deuxième contre-mesure, ils ont modifié la minuterie pour renvoyer des valeurs proches de l’heure réelle, mais pas. Cela rend beaucoup plus difficile pour un attaquant de mesurer l’activité de l’ordinateur sur un intervalle, explique Cook. Cette atténuation a réduit la précision de l’attaque de 96 % à seulement 1 %.

“J’ai été surpris de voir à quel point une si petite atténuation comme l’ajout d’un caractère aléatoire à la minuterie pouvait être si efficace. Cette stratégie d’atténuation pourrait vraiment être mise en œuvre aujourd’hui. Cela n’affecte pas la façon dont vous utilisez la plupart des sites Web », dit-il.

S’appuyant sur ces travaux, les chercheurs prévoient de développer un cadre d’analyse systématique pour les attaques par canal latéral assistées par l’apprentissage automatique. Cela pourrait aider les chercheurs à trouver la cause profonde de plus d’attaques, dit Yan. Ils veulent également voir comment ils peuvent utiliser l’apprentissage automatique pour découvrir d’autres types de vulnérabilités.

“Cet article présente une nouvelle attaque par canal latéral basée sur les interruptions et démontre qu’elle peut être utilisée efficacement pour les attaques d’empreintes digitales de sites Web, alors qu’auparavant, de telles attaques étaient considérées comme possibles en raison des canaux latéraux de cache”, déclare Yanjing Li, professeur adjoint au Département d’informatique de l’Université de Chicago, qui n’a pas participé à cette recherche. “J’ai aimé cet article immédiatement après l’avoir lu pour la première fois, non seulement parce que la nouvelle attaque est intéressante et remet en question avec succès les notions existantes, mais aussi parce qu’elle souligne une limitation clé des attaques par canal latéral assistées par ML – s’appuyant aveuglément sur l’apprentissage automatique. les modèles sans analyse minutieuse ne peuvent fournir aucune compréhension des causes/sources réelles d’une attaque, et peuvent même être trompeurs. C’est très perspicace et je pense qu’il inspirera de nombreux travaux futurs dans cette direction.

Cette recherche a été financée, en partie, par la National Science Foundation, l’Air Force Office of Scientific Research et le MIT-IBM Watson AI Lab.