Perplexity AI nguồn mở BrowseSafe để chống lại việc tiêm mã độc nhanh chóng trong trình duyệt AI

MPOST2025/12/05 05:15

Theo:MPOST

Tóm lại Perplexity cung cấp BrowseSafe mã nguồn mở, một công cụ bảo mật được thiết kế để bảo vệ trợ lý trình duyệt AI khỏi các hướng dẫn độc hại ẩn trong các trang web.

AI bối rối , công ty đứng sau công cụ tìm kiếm Perplexity dựa trên AI, đã công bố phát hành BrowseSafe, một chuẩn mực nghiên cứu mở và mô hình phát hiện nội dung được thiết kế để tăng cường sự an toàn cho người dùng khi các tác nhân AI bắt đầu hoạt động trực tiếp trong môi trường trình duyệt.

Khi trợ lý AI vượt ra ngoài truyền thống Tìm kiếm Giao diện và bắt đầu thực hiện các tác vụ bên trong trình duyệt web, cấu trúc của Internet dự kiến sẽ chuyển từ các trang tĩnh sang tương tác do tác nhân điều khiển. Trong mô hình này, trình duyệt trở thành không gian làm việc nơi trợ lý có thể hành động thay vì chỉ cung cấp câu trả lời, tạo ra nhu cầu về các hệ thống đảm bảo trợ lý luôn hành động vì lợi ích của người dùng.

BrowseSafe là một mô hình phát hiện chuyên biệt được đào tạo để đánh giá một câu hỏi cốt lõi duy nhất: liệu HTML của trang web có chứa các lệnh độc hại nhằm thao túng tác nhân AI hay không. Mặc dù các mô hình lớn, đa năng có thể đánh giá chính xác những rủi ro này, nhưng chúng thường quá tốn tài nguyên để quét liên tục theo thời gian thực. BrowseSafe được thiết kế để phân tích toàn bộ trang web một cách nhanh chóng mà không ảnh hưởng đến hiệu suất trình duyệt. Cùng với mô hình này, công ty đang phát hành BrowseSafe-Bench, một bộ kiểm tra nhằm hỗ trợ việc đánh giá và cải thiện liên tục các cơ chế phòng thủ.

Sự trỗi dậy của Duyệt web dựa trên AI cũng đưa ra những thách thức an ninh mạng mới đòi hỏi các chiến lược bảo vệ được cập nhật. Trước đây, công ty đã phác thảo cách hệ thống Comet của mình áp dụng nhiều lớp phòng thủ để đảm bảo các tác nhân luôn đồng bộ với ý định của người dùng, ngay cả trong trường hợp các trang web cố gắng thay đổi hành vi của tác nhân thông qua việc chèn mã độc. Giải thích mới nhất tập trung vào cách các mối đe dọa này defiđã được kiểm tra bằng các tình huống tấn công thực tế và được tích hợp vào các mô hình được đào tạo để xác định và chặn các lệnh có hại đủ nhanh để triển khai an toàn bên trong trình duyệt.

Tiêm mã độc nhanh (prompt injection) là việc chèn ngôn ngữ độc hại vào văn bản mà hệ thống AI xử lý, với mục tiêu chuyển hướng hành vi của hệ thống. Trong cài đặt trình duyệt, các tác nhân đọc toàn bộ trang, cho phép các cuộc tấn công như vậy được nhúng vào các khu vực như bình luận, mẫu hoặc chân trang mở rộng. Những hướng dẫn ẩn này có thể ảnh hưởng đến hành động của tác nhân nếu không được phát hiện đúng cách. Chúng cũng có thể được viết ở định dạng tinh vi hoặc đa ngôn ngữ, hoặc được ẩn trong các thành phần HTML không hiển thị trực quan trên trang—chẳng hạn như thuộc tính dữ liệu hoặc trường biểu mẫu chưa được hiển thị—mà người dùng không nhìn thấy nhưng hệ thống AI vẫn có thể diễn giải.

BrowseSafe-Bench: Nâng cao bảo mật tác nhân trong môi trường web thực tế

Để phân tích các mối đe dọa tiêm mã độc nhanh chóng trong môi trường tương tự như duyệt web thực tế, công ty đã phát triển BrowseSafe, một mô hình phát hiện đã được đào tạo và phát hành dưới dạng mã nguồn mở, cùng với BrowseSafe-Bench, một chuẩn mực công khai chứa 14,719 ví dụ được mô phỏng theo các trang web thương mại. Bộ dữ liệu bao gồm các cấu trúc HTML phức tạp, nội dung chất lượng hỗn hợp và một loạt các mẫu độc hại và lành tính, khác nhau tùy theo ý định của kẻ tấn công, vị trí đặt lệnh tiêm mã độc trong trang và phong cách ngôn ngữ. Nó bao gồm 11 loại tấn công, chín phương pháp tiêm mã độc, từ các phần tử ẩn đến các khối văn bản hiển thị, và ba phong cách ngôn ngữ, từ các lệnh trực tiếp đến các cụm từ gián tiếp tinh tế hơn.

Bên dưới defiTheo mô hình mối đe dọa được thiết lập, trợ lý hoạt động trong một môi trường đáng tin cậy, trong khi tất cả nội dung web bên ngoài được coi là không đáng tin cậy. Các tác nhân độc hại có thể kiểm soát toàn bộ trang web hoặc chèn văn bản có hại—chẳng hạn như mô tả, bình luận hoặc bài đăng—vào các trang hợp pháp mà tác nhân truy cập. Để giảm thiểu những rủi ro này, bất kỳ công cụ nào có khả năng trả về dữ liệu không đáng tin cậy, bao gồm các trang web, email hoặc tệp, đều được gắn cờ và đầu ra thô của nó được BrowseSafe xử lý trước khi tác nhân có thể diễn giải hoặc hành động trên đó. BrowseSafe hoạt động như một thành phần của chiến lược bảo mật rộng hơn bao gồm quét nội dung đến, mặc định giới hạn quyền của công cụ và yêu cầu người dùng phê duyệt đối với một số hoạt động nhạy cảm, được bổ sung bởi các biện pháp bảo vệ trình duyệt tiêu chuẩn. Phương pháp tiếp cận theo lớp này nhằm hỗ trợ việc sử dụng các trợ lý dựa trên trình duyệt có năng lực mà không ảnh hưởng đến tính an toàn.

Kết quả thử nghiệm trên BrowseSafe-Bench làm nổi bật một số xu hướng. Các hình thức tấn công trực tiếp, chẳng hạn như cố gắng trích xuất lời nhắc hệ thống hoặc chuyển hướng thông tin qua đường dẫn URL, là một trong những hình thức tấn công dễ phát hiện nhất đối với các mô hình. Các cuộc tấn công đa ngôn ngữ, cùng với các phiên bản được viết bằng cách diễn đạt gián tiếp hoặc giả định, có xu hướng khó khăn hơn vì chúng tránh các tín hiệu từ vựng mà nhiều hệ thống phát hiện dựa vào. Vị trí của văn bản được chèn cũng đóng một vai trò. Các trường hợp ẩn trong chú thích HTML được phát hiện tương đối hiệu quả, trong khi các trường hợp được đặt trong các phần hiển thị như chân trang, ô bảng hoặc đoạn văn khó khăn hơn, cho thấy điểm yếu về cấu trúc trong việc xử lý các trường hợp chèn không ẩn. Việc đào tạo được cải thiện với các ví dụ được thiết kế tốt có thể nâng cao hiệu suất phát hiện trong các trường hợp này.

BrowseSafe và BrowseSafe-Bench có sẵn dưới dạng tài nguyên mã nguồn mở. Các nhà phát triển đang làm việc trên các tác nhân tự động có thể sử dụng chúng để tăng cường phòng thủ chống lại việc tiêm mã độc ngay lập tức mà không cần phải xây dựng hệ thống bảo vệ độc lập. Mô hình phát hiện có thể chạy cục bộ và đánh dấu các lệnh độc hại trước khi chúng đến lớp ra quyết định cốt lõi của tác nhân, với hiệu suất được tối ưu hóa để quét toàn bộ trang theo thời gian thực. Bộ kịch bản tấn công thực tế phong phú của BrowseSafe-Bench cung cấp một phương tiện để kiểm tra ứng suất của các mô hình so với các mẫu HTML phức tạp thường làm ảnh hưởng đến các mô hình ngôn ngữ tiêu chuẩn, trong khi các kỹ thuật phân đoạn và quét song song giúp các tác nhân xử lý các trang lớn, không đáng tin cậy một cách hiệu quả mà không khiến người dùng phải chịu rủi ro cao.

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.

APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.

Khóa ngay!