Các AI Agent có Thể Làm Rò Rỉ Dữ Liệu Công Ty Qua Tìm Kiếm Web Đơn Giản

Các AI Agent có Thể Làm Rò Rỉ Dữ Liệu Công Ty Qua Tìm Kiếm Web Đơn Giản

Các AI Agent có thể làm rò rỉ dữ liệu công ty thông qua các tìm kiếm web đơn giản

Khi một công ty triển khai một AI agent có thể tìm kiếm trên web và truy cập các tài liệu nội bộ, hầu hết các nhóm đều cho rằng agent đang hoạt động đúng như dự định. Nghiên cứu mới cho thấy chính thiết lập đó có thể được sử dụng để âm thầm lấy dữ liệu nhạy cảm ra khỏi một tổ chức. Cuộc tấn công không yêu cầu thao túng trực tiếp mô hình. Thay vào đó, nó tận dụng những gì mô hình được phép nhìn thấy trong một tác vụ thông thường.

indirect prompt injection

Nghiên cứu này đến từ Smart Labs AI và Đại học Augsburg. Các tác giả muốn hiểu cách thức hoạt động của indirect prompt injection trong thực tế, không chỉ trong các ví dụ riêng lẻ. Công trình của họ tập trung vào các AI agent kết hợp large language model, một hệ thống truy xuất cho các tệp nội bộ và các công cụ tìm kiếm web. Sự kết hợp này đang trở nên phổ biến trong môi trường doanh nghiệp. Agent nhận yêu cầu của người dùng, tìm kiếm các nguồn bên trong và bên ngoài, và trả về câu trả lời cuối cùng.

Các nhà nghiên cứu chỉ ra rằng nếu kẻ tấn công có thể khiến agent đọc một trang web bị thao túng duy nhất, agent có thể được hướng dẫn truy xuất dữ liệu nội bộ và gửi nó đến một máy chủ từ xa. Người dùng kích hoạt quy trình làm việc có thể nghĩ rằng họ chỉ yêu cầu một tìm kiếm thông thường. Trong thực tế, agent có thể truyền thông tin bí mật ở chế độ nền.

Hướng dẫn ẩn trong tầm nhìn rõ ràng

Cuộc tấn công không cần quyền truy cập đặc biệt hoặc phần mềm độc hại. Kẻ tấn công chỉ cần mô hình đọc văn bản bao gồm các hướng dẫn ẩn. Các tác giả đã sử dụng văn bản màu trắng trên nền trắng trong một bài đăng trên blog, nhưng lưu ý rằng các phương pháp khác cũng hoạt động. Ngay sau khi agent xử lý trang web như một phần của một tác vụ bình thường, nó sẽ hấp thụ văn bản ẩn cùng với văn bản hiển thị. Mô hình ngôn ngữ diễn giải văn bản đó như là hướng dẫn.

Các hướng dẫn được thử nghiệm trong nghiên cứu yêu cầu agent tìm kiếm một bí mật được lưu trữ trong cơ sở kiến thức nội bộ của công ty. Agent sau đó được yêu cầu gửi bí mật đó đến một máy chủ do kẻ tấn công kiểm soát, sử dụng cùng một công cụ tìm kiếm web đã được tích hợp vào agent. Người dùng sẽ không có tín hiệu nào cho thấy bất cứ điều gì bất ngờ đã xảy ra.

Các nhà nghiên cứu đã sử dụng một kiến trúc agent tiêu chuẩn với Retrieval Augmented Generation (RAG). Agent không bị cấu hình sai. Không có vi phạm theo nghĩa thông thường. Hệ thống hoạt động như được thiết kế. Đây là điều làm cho vấn đề trở nên khó khăn. Kẻ tấn công không đột nhập. Kẻ tấn công thuyết phục hệ thống hành động dựa trên khả năng của chính nó.

Kiểm tra trên nhiều large language model

Một đóng góp quan trọng của nghiên cứu là quy mô. Các nhà nghiên cứu không kiểm tra một hoặc hai mô hình. Họ đã tạo ra 1.068 nỗ lực tấn công duy nhất cho mỗi mô hình, kết hợp các mẫu và chuyển đổi khác nhau của các hướng dẫn ẩn. Một số chuyển đổi làm cho các prompt dài hơn hoặc ngắn hơn. Một số diễn giải lại các hướng dẫn. Những người khác mã hóa các hướng dẫn ở các dạng như Base64 hoặc chèn các ký tự Unicode vô hình.

Tỷ lệ thành công rất khác nhau. Một số mô hình liên tục tuân theo các hướng dẫn ẩn. Những người khác chống lại các nỗ lực tấn công. Bài báo lưu ý rằng kích thước mô hình không phải là một yếu tố dự đoán đáng tin cậy. Các mô hình lớn hơn không phải lúc nào cũng có khả năng chống chịu tốt hơn. Một số mô hình nhỏ hơn hoạt động tốt hơn các mô hình lớn. Điều này cho thấy rằng cách một mô hình được đào tạo quan trọng hơn số lượng tham số.

Các mô hình từ một số nhà cung cấp đã chống lại gần như tất cả các nỗ lực. Những người khác dễ bị ảnh hưởng hơn nhiều. Các tác giả không tuyên bố xếp hạng các nhà cung cấp theo bảo mật. Thay vào đó, họ nhấn mạnh rằng thực tiễn đào tạo và các phương pháp điều chỉnh dường như đóng một vai trò quan trọng trong khả năng phục hồi.

Trao đổi với Help Net Security về công việc đang được tiến hành để tạo ra hướng dẫn trong lĩnh vực này, Elad Schulman, Giám đốc điều hành tại Lasso Security, cho biết rằng một số hợp tác đang hướng tới một khuôn khổ chung để hiểu những mối đe dọa này. Ông nói rằng OWASP, NIST, CoSAI và các công ty tư nhân đang đóng góp vào các hệ thống phân loại, tiêu chuẩn và thực tiễn nghiên cứu. Theo Schulman, các cuộc tấn công chống lại các hệ thống agent đang tiến triển nhanh chóng và các tổ chức nên kiểm tra các mô hình và áp dụng các biện pháp bảo mật chuyên dụng trong suốt quá trình triển khai.

Tại sao các biện pháp phòng thủ thông thường gặp khó khăn

Nhiều biện pháp phòng thủ hiện tại tập trung vào đầu vào trực tiếp của người dùng. Chúng sàng lọc những gì người dùng nhập trước khi nó đến mô hình. Indirect prompt injection trượt xung quanh rào cản đó vì người dùng không phải là nguồn của văn bản độc hại. Mô hình gặp phải cuộc tấn công trong khi thực hiện một tác vụ bình thường, chẳng hạn như tóm tắt một tài liệu hoặc quét một trang web để tìm ngữ cảnh.

Các mẫu tấn công đã được công khai, nhưng các mẫu tương tự vẫn tiếp tục hoạt động trên các mô hình mới. Sự thiếu trao đổi trên toàn ngành có nghĩa là các bài học không lan rộng.

Schulman cho biết sự thiếu điểm tham chiếu chung chỉ là tạm thời nhưng có ý nghĩa trong giai đoạn đầu này. Ông lưu ý rằng các nhóm nghiên cứu đang trong quá trình xây dựng các hệ thống phân loại và lập bản đồ các kỹ thuật tấn công. Cho đến khi các hệ thống đó ổn định, ông nói, các doanh nghiệp nên cho rằng những điểm yếu này sẽ tiếp tục phát triển và nên chạy thử nghiệm có cấu trúc trên bất kỳ agent nào có quyền truy cập vào các hệ thống nội bộ.

Những gì các CISO nên xem xét

Các nhóm nên xem các AI agent như các hệ thống phần mềm cần guardrails, không phải là các giao diện trò chuyện riêng lẻ. Giám sát hành vi đầu ra, thêm các kiểm tra chính sách giữa agent và các công cụ bên ngoài và kiểm soát những nguồn dữ liệu nội bộ mà agent có thể truy cập đều là một phần của phương pháp tiếp cận theo lớp.

Schulman lưu ý rằng bề mặt tấn công tăng lên khi các AI agent xử lý hình ảnh, âm thanh và các công cụ thực hiện các hành động trên các hệ thống. Ông nói rằng các hướng dẫn ẩn có thể xuất hiện trong nội dung trực quan, kết quả tìm kiếm hoặc đầu ra của công cụ và các quy trình làm việc của agent nhiều bước có thể thực hiện các hành động có vẻ hợp pháp đối với các hệ thống giám sát truyền thống.

Các AI agent hứa hẹn ở quy mô lớn, nhưng các nhóm bảo mật sẽ cần quản lý chúng với cùng sự giám sát được đặt vào danh tính, bảo mật trình duyệt và các chính sách thực thi mã. Như Schulman đã nói, khi các AI agent di chuyển vào trình duyệt, email và các công cụ nơi làm việc, các tổ chức có thể triển khai chúng mà không nhận ra các hệ thống này đã trở nên kết nối với nhau như thế nào.

Giải thích thuật ngữ:

  • AI Agent: Một chương trình máy tính có khả năng tự động thực hiện các tác vụ, đưa ra quyết định và tương tác với môi trường xung quanh để đạt được mục tiêu cụ thể.
  • Large Language Model (LLM): Một loại mô hình AI được huấn luyện trên lượng lớn dữ liệu văn bản để hiểu và tạo ra ngôn ngữ tự nhiên một cách mạch lạc và có ý nghĩa.
  • Indirect Prompt Injection: Một kỹ thuật tấn công trong đó kẻ tấn công chèn các hướng dẫn độc hại vào dữ liệu mà AI agent xử lý (ví dụ: trang web, tài liệu), khiến agent thực hiện các hành động không mong muốn.
  • Retrieval Augmented Generation (RAG): Một phương pháp cải thiện khả năng của LLM bằng cách cho phép nó truy xuất thông tin từ các nguồn bên ngoài (ví dụ: cơ sở dữ liệu, internet) trước khi tạo ra câu trả lời, giúp câu trả lời chính xác và phù hợp hơn.
  • CISO (Chief Information Security Officer): Giám đốc an ninh thông tin, người chịu trách nhiệm quản lý và bảo vệ tài sản thông tin của một tổ chức.
  • Guardrails: Các biện pháp bảo vệ và kiểm soát được thiết lập để đảm bảo rằng AI agent hoạt động trong phạm vi an toàn và tuân thủ các chính sách của tổ chức.

Chia sẻ với

Share on facebook
Share on twitter
Share on linkedin
Share on pinterest

Bài viết liên quan

CISA cảnh báo về các chiến dịch phần mềm gián điệp đang hoạt động nhắm vào người dùng Signal và …

Nhóm tin tặc khét tiếng Molerats, hay còn gọi là GazaHackerTeam, vừa tái xuất giang hồ sau hai tháng im …

Một loại mã độc Android mới nổi lên, được gọi là SuperCard X, đang tạo ra mối đe dọa lớn …

Ba lỗ hổng React mới xuất hiện sau React2Shell CVE-2025-55183, CVE-2025-55184 và CVE-2025-67779 cần được chú ý ngay lập tức Nhóm Nghiên …