Nghiên cứu Rủi ro AI chưa công bố của NIST vẫn bị gác lại giữa những thay đổi về hành chính

MPOST2025/08/08 11:25

Theo:MPOST

Tóm lại Một cuộc tập trận nhóm đỏ do NIST dẫn đầu tại CAMLIS đã đánh giá các lỗ hổng trong các hệ thống AI tiên tiến, đánh giá các rủi ro như thông tin sai lệch, rò rỉ dữ liệu và thao túng cảm xúc.

Viện Tiêu chuẩn và Công nghệ (NIST) đã hoàn thành một báo cáo về tính an toàn của các mô hình AI tiên tiến vào cuối nhiệm kỳ của chính quyền Joe Biden, nhưng tài liệu này đã không được công bố sau khi chuyển giao sang chính quyền Donald Trump. Mặc dù báo cáo được thiết kế để hỗ trợ các tổ chức đánh giá hệ thống AI của họ, nhưng nó nằm trong số một số tài liệu AI do NIST biên soạn bị giữ lại do có khả năng xung đột với định hướng chính sách của chính quyền mới.

Trước khi nhậm chức, Tổng thống Donald Trump đã bày tỏ ý định hủy bỏ các sắc lệnh hành pháp liên quan đến AI của thời Biden. Kể từ khi chuyển giao quyền lực, chính quyền đã chuyển hướng sự tập trung của chuyên gia khỏi các lĩnh vực như thiên kiến thuật toán và tính công bằng trong AI. Kế hoạch Hành động AI được công bố vào tháng 7 đặc biệt kêu gọi sửa đổi Khung Quản lý Rủi ro AI của NIST, khuyến nghị loại bỏ các tham chiếu đến thông tin sai lệch, Đa dạng, Công bằng và Hòa nhập (DEI) và biến đổi khí hậu.

Đồng thời, Kế hoạch Hành động AI bao gồm một đề xuất tương tự với các mục tiêu của báo cáo chưa được công bố. Đề xuất này chỉ đạo nhiều cơ quan liên bang, bao gồm cả NIST, tổ chức một sáng kiến hackathon AI phối hợp nhằm kiểm tra tính minh bạch, chức năng, khả năng kiểm soát của người dùng và các lỗ hổng bảo mật tiềm ẩn của hệ thống AI.

Bài tập nhóm đỏ do NIST dẫn đầu thăm dò rủi ro hệ thống AI bằng cách sử dụng khung ARIA tại Hội nghị CAMLIS

Bài tập nhóm đỏ được thực hiện trong khuôn khổ chương trình Đánh giá Rủi ro và Tác động của AI (ARIA) do NIST phối hợp với Humane Intelligence, một công ty chuyên đánh giá các hệ thống AI, thực hiện. Sáng kiến này được tổ chức trong khuôn khổ Hội nghị về Học máy Ứng dụng trong An ninh Thông tin (CAMLIS), nơi những người tham gia đã khám phá các lỗ hổng của một loạt các công nghệ AI tiên tiến.

Báo cáo CAMLIS Red Teaming ghi lại quá trình đánh giá các công cụ AI khác nhau, bao gồm cả Meta Llama, một mô hình ngôn ngữ lớn (LLM) nguồn mở; Anote, một nền tảng để phát triển và tinh chỉnh các mô hình AI; một hệ thống bảo mật từ Robust Intelligence, hiện đã được CISCO mua lại; và nền tảng tạo avatar AI của Synthesia. Đại diện từ mỗi tổ chức đã đóng góp vào các hoạt động nhóm đỏ.

Những người tham gia đã sử dụng khuôn khổ NIST AI 600-1 để phân tích các công cụ được đề cập. Khuôn khổ này phác thảo nhiều lĩnh vực rủi ro, chẳng hạn như khả năng AI tạo ra thông tin sai lệch hoặc các mối đe dọa an ninh mạng, tiết lộ dữ liệu riêng tư hoặc nhạy cảm, hoặc thúc đẩy sự phụ thuộc về mặt cảm xúc giữa người dùng và hệ thống AI.

Báo cáo AI Red Teaming chưa được công bố tiết lộ lỗ hổng mô hình, làm dấy lên lo ngại về sự đàn áp chính trị và những hiểu biết nghiên cứu bị bỏ sót

Nhóm nghiên cứu đã tìm ra một số phương pháp để lách các biện pháp bảo vệ dự kiến của các công cụ đang được đánh giá, dẫn đến các kết quả đầu ra bao gồm thông tin sai lệch, tiết lộ thông tin cá nhân và hỗ trợ xây dựng chiến lược tấn công mạng. Theo báo cáo, một số khía cạnh của khuôn khổ NIST tỏ ra khả thi hơn những khía cạnh khác. Báo cáo cũng lưu ý rằng một số danh mục rủi ro thiếu sự rõ ràng cần thiết cho việc sử dụng thực tế.

Những người quen thuộc với sáng kiến nhóm đỏ bày tỏ rằng những phát hiện từ bài tập này có thể mang lại những hiểu biết giá trị cho cộng đồng nghiên cứu và phát triển AI nói chung. Một người tham gia, Alice Qian Zhang, nghiên cứu sinh tiến sĩ tại Đại học Carnegie Mellon, lưu ý rằng việc chia sẻ công khai báo cáo có thể giúp làm rõ cách thức hoạt động của khung rủi ro NIST khi áp dụng trong môi trường thử nghiệm thực tế. Cô cũng nhấn mạnh rằng việc tương tác trực tiếp với các nhà phát triển công cụ trong quá trình đánh giá đã mang lại giá trị gia tăng cho trải nghiệm này.

Một người đóng góp khác, người đã chọn ẩn danh, cho biết rằng bài tập này đã phát hiện ra các kỹ thuật nhắc nhở cụ thể - sử dụng các ngôn ngữ như tiếng Nga, tiếng Gujarati, tiếng Marathi và tiếng Telugu - đặc biệt thành công trong việc thu thập các đầu ra bị cấm từ các mô hình như Llama, bao gồm các hướng dẫn liên quan đến việc tham gia các nhóm cực đoan. Cá nhân này cho rằng quyết định không công bố báo cáo có thể phản ánh sự chuyển dịch rộng rãi hơn khỏi các lĩnh vực được coi là gắn liền với sự đa dạng, công bằng và hòa nhập trước khi chính quyền mới lên nắm quyền.

Một số người tham gia suy đoán rằng việc bỏ sót báo cáo cũng có thể xuất phát từ việc chính phủ tập trung nhiều hơn vào các rủi ro nghiêm trọng - chẳng hạn như khả năng sử dụng hệ thống AI trong việc phát triển vũ khí hủy diệt hàng loạt - và nỗ lực song song nhằm củng cố mối quan hệ với các công ty công nghệ lớn. Một người tham gia ẩn danh của nhóm đỏ nhận xét rằng các cân nhắc chính trị có thể đã đóng một vai trò trong việc giữ lại báo cáo và rằng bài tập này chứa đựng những hiểu biết có liên quan đến khoa học hiện tại.

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.

APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.

Khóa ngay!