Perplexity AI ouvre le code source de BrowseSafe pour lutter contre l'injection de prompts dans la navigation IA

MPOST2025/12/05 05:18

Par:MPOST

En bref Perplexity a rendu open source BrowseSafe, un outil de sécurité conçu pour protéger les assistants de navigation IA contre les instructions malveillantes dissimulées dans les pages web.

IA perplexité , la société à l'origine du moteur de recherche Perplexity basé sur l'IA, a annoncé la sortie de BrowseSafe, un modèle de référence de recherche ouvert et de détection de contenu conçu pour améliorer la sécurité des utilisateurs à mesure que les agents d'IA commencent à opérer directement dans l'environnement du navigateur.

À mesure que les assistants IA s'affranchissent des technologies traditionnelles recherche Avec l'avènement des interfaces et l'exécution de tâches directement dans les navigateurs web, la structure d'Internet devrait évoluer des pages statiques vers des interactions pilotées par des agents. Dans ce modèle, le navigateur devient un espace de travail où un assistant peut agir et non plus se contenter de fournir des réponses, ce qui engendre un besoin en systèmes garantissant que l'assistant agisse systématiquement dans l'intérêt de l'utilisateur.

BrowseSafe est un modèle de détection spécialisé, conçu pour répondre à une question essentielle : le code HTML d'une page web contient-il des instructions malveillantes destinées à manipuler un agent d'IA ? Si les modèles généralistes de grande envergure peuvent évaluer ces risques avec précision, ils sont généralement trop gourmands en ressources pour une analyse continue en temps réel. BrowseSafe est conçu pour analyser rapidement des pages web complètes sans impacter les performances du navigateur. Parallèlement à ce modèle, la société lance BrowseSafe-Bench, une suite de tests destinée à faciliter l'évaluation et l'amélioration continues des mécanismes de défense.

La hausse des Navigation basée sur l'IA Cela introduit également de nouveaux défis en matière de cybersécurité qui nécessitent des stratégies de protection mises à jour. L'entreprise avait précédemment expliqué comment son système Comet applique plusieurs niveaux de défense pour garantir que les agents restent alignés sur l'intention de l'utilisateur, même lorsque des sites web tentent de modifier le comportement des agents par injection de requêtes. La dernière explication porte sur la manière dont ces menaces sont defined, testé à l'aide de scénarios d'attaque réels et intégré dans des modèles entraînés à identifier et à bloquer les instructions nuisibles suffisamment rapidement pour un déploiement sûr dans le navigateur.

L'injection de prompts consiste à insérer du langage malveillant dans un texte traité par un système d'IA, afin de modifier son comportement. Dans un navigateur, les agents lisent des pages entières, ce qui permet d'intégrer de telles attaques dans des zones comme les commentaires, les modèles ou les pieds de page étendus. Ces instructions cachées peuvent influencer les actions de l'agent si elles ne sont pas correctement détectées. Elles peuvent également être rédigées dans des formats subtils ou multilingues, ou dissimulées dans des éléments HTML invisibles à l'œil nu (comme les attributs de données ou les champs de formulaire non rendus), invisibles pour l'utilisateur mais interprétables par les systèmes d'IA.

BrowseSafe-Bench : Améliorer la sécurité des agents dans les environnements Web réels

Afin d'analyser les menaces d'injection de requêtes dans un environnement similaire à la navigation web réelle, la société a développé BrowseSafe, un modèle de détection entraîné et publié en open source, ainsi que BrowseSafe-Bench, un jeu de données de référence public contenant 14 719 exemples inspirés de pages web en production. Ce jeu de données intègre des structures HTML complexes, du contenu de qualité variable et un large éventail d'exemples malveillants et légitimes, qui diffèrent par l'intention de l'attaquant, l'emplacement de l'instruction injectée dans la page et le style linguistique. Il couvre 11 catégories d'attaques, neuf méthodes d'injection (allant des éléments cachés aux blocs de texte visibles) et trois styles de langage (des commandes directes aux formulations indirectes plus subtiles).

En vertu des Normes sur l’information et les communications, les organismes doivent rendre leurs sites et applications Web accessibles. Ils y parviennent en conformant leurs sites Web au niveau AA des Web Content Accessibility Guidelines (WCAG). defiDans ce modèle de sécurité, l'assistant fonctionne dans un environnement de confiance, tandis que tout contenu web externe est considéré comme non fiable. Des acteurs malveillants peuvent contrôler des sites entiers ou insérer du texte malveillant (descriptions, commentaires ou publications) dans des pages légitimes consultées par l'agent. Pour atténuer ces risques, tout outil susceptible de renvoyer des données non fiables (pages web, courriels ou fichiers) est signalé et ses données brutes sont traitées par BrowseSafe avant que l'agent puisse les interpréter ou agir en conséquence. BrowseSafe s'inscrit dans une stratégie de sécurité plus globale comprenant l'analyse du contenu entrant, la limitation par défaut des autorisations des outils et l'exigence d'une approbation de l'utilisateur pour certaines opérations sensibles, le tout complété par les protections standard du navigateur. Cette approche multicouche vise à permettre l'utilisation d'assistants web performants sans compromettre la sécurité.

Les résultats des tests sur BrowseSafe-Bench mettent en évidence plusieurs tendances. Les attaques directes, telles que les tentatives d'extraction d'invites système ou de redirection d'informations via des URL, sont parmi les plus faciles à détecter pour les modèles. Les attaques multilingues, ainsi que les versions utilisant un langage indirect ou hypothétique, sont généralement plus difficiles à détecter car elles contournent les indices lexicaux sur lesquels s'appuient de nombreux systèmes de détection. L'emplacement du texte injecté joue également un rôle. Les injections dissimulées dans des commentaires HTML sont détectées relativement efficacement, tandis que celles placées dans des sections visibles comme les pieds de page, les cellules de tableau ou les paragraphes sont plus complexes, révélant une faiblesse structurelle dans la gestion des injections non dissimulées. Un entraînement plus poussé avec des exemples bien conçus peut améliorer les performances de détection dans ces cas.

BrowseSafe et BrowseSafe-Bench sont disponibles en open source. Les développeurs d'agents autonomes peuvent les utiliser pour renforcer les défenses contre l'injection de requêtes sans avoir à développer de systèmes de protection indépendants. Le modèle de détection peut s'exécuter localement et signaler les instructions malveillantes avant qu'elles n'atteignent la couche décisionnelle principale de l'agent, avec des performances optimisées pour l'analyse de pages complètes en temps réel. Le vaste ensemble de scénarios d'attaque réalistes de BrowseSafe-Bench permet de tester la robustesse des modèles face aux schémas HTML complexes qui compromettent généralement les modèles de langage standard. Par ailleurs, les techniques de segmentation et d'analyse parallèle aident les agents à traiter efficacement les pages volumineuses et non fiables sans exposer les utilisateurs à des risques accrus.

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens

Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.

Bloquez maintenant !