Sự trỗi dậy của AI Agent: Khám phá các rủi ro bảo mật trong AI Web Agent

Tháng 7 11, 2025
5:55 sáng

Trong bài viết trước, chúng ta đã cùng nhau khám phá thế giới của AI Web Agents, tìm hiểu định nghĩa, khả năng cốt lõi và các nền tảng hàng đầu giúp chúng hoạt động. Giờ đây, chúng ta sẽ chuyển sang một khía cạnh khác: những lỗ hổng và bề mặt tấn công xuất hiện khi các tác nhân tự động duyệt web, nhấp chuột và hành động thay mặt chúng ta.

Từ các công ty khởi nghiệp đến những gã khổng lồ công nghệ, tất cả đều đang chạy đua để tích hợp những khả năng này vào sản phẩm và dịch vụ của họ, biến AI Agents thành yếu tố then chốt trong hoạt động hiện đại. Nhưng khi việc áp dụng diễn ra ngày càng nhanh chóng, một sự thật phũ phàng lộ ra: sức mạnh của chúng đi kèm với rủi ro. Trong bài viết này, chúng ta sẽ khám phá cách các lỗ hổng trong AI Web Agents đang nổi lên như những rủi ro bảo mật nghiêm trọng, đặc biệt khi chúng được nhúng vào các quy trình và hệ thống lớn hơn.

Tổng quan về Web Agents

Trước khi đi sâu vào các mối đe dọa cụ thể, chúng ta hãy cùng nhau tóm tắt cách AI Web Agents hoạt động. Về cơ bản, AI Web Agents là các công cụ phần mềm được hỗ trợ bởi các mô hình ngôn ngữ lớn (LLM) với một công cụ tự động hóa, thường là một trình duyệt không đầu hoặc máy khách API, để biến các hướng dẫn bằng ngôn ngữ tự nhiên thành các hành động web cụ thể. Chúng sẽ điều hướng đến một trang, xác thực hoặc điền vào biểu mẫu, gọi các điểm cuối API, phân tích cú pháp phản hồi và thậm chí quản lý cookie hoặc trạng thái phiên để hoàn thành từng bước. Các tác nhân này có thể chia nhỏ các lời nhắc phức tạp thành các hành động riêng biệt và thực hiện chúng thông qua trình duyệt hoặc thậm chí hệ điều hành cơ bản.

Các framework như Browser-Use và Skyvern tập trung vào tự động hóa trình duyệt, trong khi các công cụ như ACE (của General Agents), Operator của OpenAI hoặc Computer Use của Claude mở rộng quyền kiểm soát sang môi trường máy tính để bàn. Trong thực tế, một tác nhân có thể tìm nạp dữ liệu trực tiếp, duy trì ngữ cảnh trong bộ nhớ trong và phối hợp với các tác nhân chuyên dụng khác để thực hiện quy trình làm việc nhiều giai đoạn.

Sự kết hợp giữa logic LLM, lớp tự động hóa và tích hợp bên ngoài không chỉ tạo ra chức năng phong phú và khả năng nâng cao mà còn làm lộ ra các bề mặt tấn công mới trong AI Web Agents hiện đại.

Rủi ro & Lỗ hổng trong AI Web Agents

Mặc dù có những khả năng ấn tượng, AI Web Agents vẫn có những điểm yếu rõ ràng mà kẻ tấn công có thể khai thác. Mặc dù lĩnh vực này vẫn còn ở giai đoạn sơ khai, các nhà nghiên cứu đã bắt đầu vạch ra các rủi ro và lỗ hổng ảnh hưởng đến AI Agents.

Trong bài viết này, chúng ta sẽ đi sâu vào một trong những mối đe dọa cấp bách đối với AI Web Agents: Agent Hijacking (Chiếm quyền điều khiển tác nhân). Điều này xảy ra khi kẻ tấn công can thiệp vào cách một tác nhân nhận thức thông tin hoặc đưa ra quyết định. Bằng cách cung cấp cho nó các đầu vào gây hiểu lầm hoặc giả mạo logic bên trong của nó, kẻ tấn công có thể đánh lừa tác nhân tin vào dữ liệu sai, làm rò rỉ thông tin nhạy cảm hoặc thực hiện các hành động không an toàn, ngoài ý muốn hoặc thậm chí là độc hại. Để đơn giản, hãy chia các cuộc tấn công chiếm quyền điều khiển thành hai loại:

Perception & Interface Hijacking (Chiếm quyền điều khiển nhận thức & giao diện): Thao túng những gì tác nhân “nhìn thấy” hoặc cách nó tương tác với môi trường web.
Prompt-Based Hijacking (Chiếm quyền điều khiển dựa trên lời nhắc): Giả mạo “quá trình suy nghĩ” của tác nhân bằng cách cung cấp cho nó các hướng dẫn gây hiểu lầm hoặc độc hại.

Sự phân tích thành hai phần này giúp làm rõ vị trí và cách thức các tác nhân có thể bị chiếm quyền điều khiển, đồng thời lý do tại sao các chiến lược phòng thủ phải bảo vệ cả lý luận bên trong và giác quan bên ngoài của chúng.

Perception & Interface Hijacking

Loại tấn công này nhắm vào “giác quan” và “hành động” của tác nhân trong trình duyệt. Nó tập trung vào lớp bên ngoài – trình duyệt, giao diện người dùng hoặc môi trường mà AI Agent tương tác. Bằng cách gây rối với những gì tác nhân nhìn thấy hoặc nhấp vào, kẻ tấn công có thể đánh lừa nó thực hiện các hành động trái phép. Perception Hijacking xảy ra theo trình tự các sự kiện sau:

Thao túng DOM/Trang: tinh chỉnh HTML của trang để đánh lừa tác nhân, chẳng hạn như thay thế các liên kết hoặc nút hợp pháp bằng các liên kết hoặc nút độc hại. Điều này có thể được thực hiện với các vectơ tấn công đã biết như XSS được lưu trữ, nhưng cũng thông qua các công cụ vốn vô hại như định dạng markdown trong các ứng dụng.
Gây nhầm lẫn về mặt hình ảnh: các thành phần web bị thao túng này gây nhầm lẫn cho web agent, đánh lừa nó thực hiện các hành động mà nó không nên làm.
Hành động: tác nhân sau đó nhấp vào các nút và liên kết bị thao túng trong trang, mong đợi một kết quả nhất định và sau đó được chuyển hướng đến các vị trí có khả năng độc hại.

Trong video sau, chúng ta sẽ thấy một nhận xét markdown đơn giản trong một diễn đàn web tiêu chuẩn có thể chiếm quyền điều khiển AI Web Agent Browser-Use như thế nào. Bằng cách thao túng cách tác nhân xem trang web, chúng ta có thể ảnh hưởng đến hành vi của nó và gửi nó đến một đích đến độc hại. Trong bản demo, chúng ta đã sử dụng một bản sao thực tế của một trang web, tương tự như Stack Overflow, để minh họa hành vi này.

https://www.imperva.com/blog/wp-content/uploads/sites/9/2025/06/Browser-Use-Perception-Hijacking-demo.mp4

Demo 1: Browser-Use Perception Hijacking

Prompt-Based Hijacking

Ngược lại với Perception-Based Hijacking, thay vì thao túng những gì tác nhân nhìn thấy, loại tấn công này nhắm mục tiêu vào vòng lặp lý luận bên trong của AI Agent bằng cách cung cấp cho nó các đầu vào ngôn ngữ được tạo thủ công ẩn trong các thành phần web được thu thập từ các trang web. Những vụ chiếm quyền điều khiển này rất nguy hiểm vì chúng khai thác tính linh hoạt vốn có giúp LLM trở nên mạnh mẽ: uốn nắn lý luận của một tác nhân hoàn toàn thông qua ngôn ngữ mà không cần chạm vào mã cơ bản của nó.

Dựa trên video demo trước, chúng ta sẽ chứng minh cách một trang đích độc hại, trong ví dụ này là một trang đăng nhập giả mạo, có thể được thiết kế để bao gồm các thành phần tương tác nhúng các prompt injection ẩn. Ở đây, chúng ta ghi đè các lời nhắc của tác nhân và hướng dẫn nó xem một video huyền thoại.

https://www.imperva.com/blog/wp-content/uploads/sites/9/2025/06/Browser-Use-prompt-injection-demo.mp4

Demo 2: Browser-Use Prompt Injection

Sự tương tác giữa Prompt và Perception Hijacking

Loại	Định nghĩa	Mục tiêu	Kỹ thuật ví dụ	Mục tiêu
Perception & Interface Hijacking	Khai thác cách tác nhân nhận thức hoặc tương tác với môi trường của nó để đánh lừa hoặc bẫy nó.	UI, DOM, hành động của trình duyệt, ngữ cảnh	DOM injection, tooltip poisoning, các nút hoặc miền giả mạo	Buộc các hành động không chính xác, làm rò rỉ dữ liệu, chuyển hướng luồng
Prompt-Based Hijacking	Thao túng lý luận bên trong của tác nhân bằng cách chèn hoặc sửa đổi đầu vào ngôn ngữ tự nhiên.	Lời nhắc, bộ nhớ, mục tiêu nhiệm vụ	Prompt injection, memory poisoning, chuyển hướng mục tiêu	Lật đổ hành vi của tác nhân, bỏ qua các biện pháp bảo vệ

Hãy nghĩ về nó như thế này: prompt-based injection gây rối với “suy nghĩ” của tác nhân, trong khi Perception & Interface Hijacking nhắm vào “giác quan” và hành động của nó.

Trong browser-based agent, bạn hiếm khi thấy prompt injection một mình. Không giống như chatbot nhận đầu vào văn bản trực tiếp, Browser Agent dựa vào việc thu thập và diễn giải nội dung trang. Điều này có nghĩa là để kẻ tấn công chèn các lời nhắc, trước tiên chúng phải thao túng những gì tác nhân nhìn thấy: thông qua DOM, các thành phần ẩn, tooltip hoặc nội dung giả mạo.

Ở đây, giao diện web trở thành bề mặt injection thực sự. Các hướng dẫn độc hại được đưa lậu vào nội dung trang mà tác nhân có khả năng thu thập hoặc tóm tắt, biến thao túng nhận thức thành cơ chế phân phối để chiếm quyền điều khiển lý luận bên trong của tác nhân. Do đó, mặc dù Prompt Injection và Perception Hijacking khác biệt về mặt khái niệm, chúng có liên kết chặt chẽ trong môi trường web, với quyền kiểm soát giao diện thường là điều kiện tiên quyết để thỏa hiệp thành công ở cấp độ lời nhắc.

Hậu quả thực tế của Agent Hijacking

Đây là những gì có thể xảy ra khi kẻ tấn công chiếm quyền điều khiển AI Web Agent:

Cross-Site Manipulation

Khi một tác nhân tải một trang chứa các tập lệnh ẩn hoặc nội dung được tạo khéo léo, trang đó có thể ảnh hưởng đến hành vi của tác nhân trên các trang web khác – giống như XSS (Cross-Site Scripting) hoặc CSRF trong bảo mật web truyền thống, nhưng ở đây, “scripting” được thực hiện thông qua nội dung ảnh hưởng đến logic quyết định của tác nhân.

Trong video demo bên dưới, chúng ta sẽ thấy cách chèn một prompt vào trang đăng nhập giả mạo có thể thao túng Browser Agent truy cập một trang web mua sắm trực tuyến với phiên đã được xác thực trước. Chúng ta minh họa cách tác nhân có thể thực hiện các hành động độc hại trên trang web, bao gồm cả việc mua hàng.

https://www.imperva.com/blog/wp-content/uploads/sites/9/2025/06/Browser-Use-Prompt-hijacking-demo.mp4

Demo 3: Browser-Use Malicious Purchases

Unchecked System Commands

Nhiều tác nhân có thể thực thi mã hoặc mô phỏng các sự kiện chuột và bàn phím – các tính năng mạnh mẽ đòi hỏi sandboxing mạnh mẽ. “Sandboxing” có nghĩa là hạn chế những gì tác nhân có thể làm, để ngăn chặn mọi thiệt hại. Nếu không có nó, một tác nhân bị chiếm quyền điều khiển có thể gây ra thiệt hại trên PC của bạn: xóa tệp, cài đặt phần mềm độc hại hoặc thay đổi các cấu hình quan trọng. Hãy tưởng tượng một kẻ tấn công đưa một hướng dẫn độc hại vào một công cụ như General Agents ACE hoặc Claude Computer Use, vì chúng kiểm soát I/O của Hệ điều hành, chúng có quyền truy cập đầy đủ vào hệ thống. Nhiều nghiên cứu điển hình đã chỉ ra các cuộc tấn công như thế này trong thực tế, chứng minh cách các Hệ điều hành được kiểm soát bởi LLM có thể bị xâm phạm theo cách này [[1](https://hiddenlayer.com/innovation-hub/indirect-prompt-injection-of-claude-computer-use/)[2](https://www.prompt.security/blog/claude-computer-use-a-ticking-time-bomb)].

Context Leakage and Unauthorized Data Access

AI Agents liên tục xử lý ngữ cảnh nhạy cảm: nội dung trang web, lời nhắc của người dùng, lý luận trung gian, khóa API và mã thông báo phiên. Context Leakage đề cập đến dữ liệu nhạy cảm bị tuột ra ngoài nơi không nên có, thường là do một cuộc tấn công. Một tác nhân có thể mang thông tin riêng tư từ bước này sang bước khác và vô tình tiết lộ nó. Ví dụ: nếu một tác nhân đăng nhập vào tài khoản của người dùng (email, ngân hàng, v.v.), nó sẽ xử lý thông tin xác thực hoặc mã thông báo phiên. Những thứ đó cần được bảo vệ. Thiết lập nhiều tác nhân khuếch đại rủi ro này: một tác nhân bị xâm phạm có thể trở thành mắt xích yếu làm lộ toàn bộ chuỗi nhiệm vụ. Dưới đây, chúng ta sẽ hiển thị một ví dụ về cách ngữ cảnh ẩn trong lời nhắc của tác nhân có thể bị rò rỉ cho kẻ tấn công.

Trong video demo cuối cùng bên dưới, chúng ta sẽ chứng minh cách chèn một prompt vào trang đăng nhập giả mạo có thể buộc Browser Agent truy xuất các bí mật cục bộ và gửi chúng đến một máy chủ do kẻ tấn công kiểm soát.

https://www.imperva.com/blog/wp-content/uploads/sites/9/2025/06/Local-secret-theft-demo.mp4

Demo 4: Browser-Use Local Secret Theft

Cascading Effects in Multi-Agent Workflows

Khi AI Agents hợp tác, với một tác nhân tìm nạp dữ liệu web, một tác nhân khác phân tích nó và tác nhân thứ ba cập nhật cơ sở dữ liệu, mọi thứ chạy như một dây chuyền lắp ráp được điều chỉnh tốt. Nhưng chính thiết lập mô-đun đó có nghĩa là một vi phạm chỉ trong một liên kết có thể âm thầm lây nhiễm cho phần còn lại. Một tác nhân bị xâm phạm — cho dù thông qua Prompt Injection, poisoned memory hoặc tampered outputs — có thể chuyển các hướng dẫn độc hại hoặc dữ liệu bị nhiễm độc cho các đồng nghiệp của nó, truyền bá một “infection” im lặng xuống chuỗi. Nghiên cứu gần đây cho thấy cách một tác nhân bị chiếm quyền điều khiển duy nhất có thể làm suy yếu các hệ thống hạ nguồn, ngay cả khi mỗi tác nhân dường như bị cô lập [[3](https://splx.ai/blog/exploiting-agentic-workflows-prompt-injections-in-multi-agent-ai-systems)].

Rủi ro này chỉ tăng lên khi các tác nhân nói chuyện với nhau bằng các giao thức tiêu chuẩn như Agent-to-Agent (A2A) và Anthropic’s Model Context Protocol (MCP). Các framework này giúp dễ dàng xây dựng và kết nối quy trình làm việc nhiều tác nhân bằng cách xác định các định dạng tin nhắn được chia sẻ, giao diện bộ nhớ và cơ chế truyền ngữ cảnh an toàn. Mặc dù tiêu chuẩn hóa này làm giảm rào cản cho các nhà phát triển xây dựng kiến trúc agentic phức tạp, nhưng nó cũng có nghĩa là một lỗ hổng trong một tác nhân hoặc triển khai giao thức có thể có tác động sâu rộng. Ví dụ: các hướng dẫn độc hại ẩn trong ngữ cảnh JSON của một tác nhân (thông qua MCP) có thể lọt qua các tác nhân khác mà không gây ra báo động. Trong thực tế, trong khi các giao thức như A2A và MCP là những yếu tố cần thiết để mở rộng quy mô và khả năng tương tác, chúng cũng nhấn mạnh sự cần thiết của các cơ chế xác thực, lọc và cách ly mạnh mẽ giữa các tác nhân để ngăn chặn sự lây lan có hệ thống của các đầu vào hoặc hành vi bị xâm phạm.

Khi hệ sinh thái đa tác nhân trở thành tiêu chuẩn, tầm quan trọng của việc coi mọi tương tác giữa các tác nhân là một ranh giới bảo mật tiềm năng trở nên tối quan trọng. Nếu không có xác thực, lọc và cách ly vững chắc ở mỗi bước, lợi ích của khả năng kết hợp và tái sử dụng có thể nhanh chóng biến thành vectơ khai thác.

Kết luận: Đổi mới một cách thận trọng

AI Web Agents như ACE, Browser-Use, Skyvern (và những tác nhân khác như bot kiểu Auto-GPT hoặc Operator của OpenAI) báo trước một tương lai tự động hóa rảnh tay. Nhưng như chúng ta đã thấy, kẻ tấn công cũng đang để mắt đến những tác nhân này. Một tác nhân bị chiếm quyền điều khiển có thể biến trợ lý AI hữu ích của bạn thành một vũ khí chống lại bạn (hoặc chống lại những người khác). Từ các cuộc tấn công Prompt Injection âm thầm chèn chương trình nghị sự của hacker, đến các khai thác cross-site ăn theo việc duyệt web của tác nhân, đến “infection” đa tác nhân lan truyền qua toàn bộ bầy bot, những thách thức bảo mật là có thật và cấp bách.

Tin tốt là chúng ta không bất lực, vì cộng đồng AI đang tích cực làm việc để phòng thủ. Các nhà nghiên cứu đang nghiên cứu các kỹ thuật prompting mạnh mẽ và bộ lọc nội dung để bắt các hướng dẫn độc hại. Các công ty đang khám phá AI theo hiến pháp và các tác nhân dựa trên chính sách từ chối các hành động rủi ro. Và các quy tắc cũ vẫn được áp dụng: chạy các tác nhân với các đặc quyền tối thiểu mà chúng cần, sandbox chúng một cách chặt chẽ và theo dõi hoạt động của chúng để tìm các điểm bất thường.

Trong thời gian chờ đợi, nếu bạn đang thử nghiệm với AI Web Agents, hãy luôn cảnh giác. Hãy đối xử với chúng như bạn đối xử với một thực tập sinh mới có sức mạnh phi thường: giám sát chặt chẽ và đào tạo chúng trước khi hoàn toàn tin tưởng chúng một mình. Sử dụng môi trường thử nghiệm, kiểm tra kỹ các bước quan trọng và giữ con người trong vòng lặp cho các bước rủi ro cao như chi tiền hoặc xóa dữ liệu. Như chúng ta đã minh họa, một cuộc tấn công được thực hiện tốt có thể khiến một AI Agent chuyển từ hữu ích sang có hại trong nháy mắt. Bằng cách hiểu những chế độ lỗi này (Prompt Injection, thao túng cross-site, sandbox escapes, Context Leakage và hiệu ứng thác đổ), chúng ta có thể thiết kế các hệ thống tác nhân an toàn hơn giúp tăng hiệu quả mà không mở cửa cho kẻ tấn công.

https://hiddenlayer.com/innovation-hub/indirect-prompt-injection-of-claude-computer-use/https://www.prompt.security/blog/claude-computer-use-a-ticking-time-bomb https://splx.ai/blog/exploiting-agentic-workflows-prompt-injections-in-multi-agent-ai-systems

Giải thích thuật ngữ

AI Web Agents: Các chương trình sử dụng trí tuệ nhân tạo để tự động thực hiện các tác vụ trên web, như tìm kiếm thông tin, điền biểu mẫu, hoặc mua sắm trực tuyến.
LLM (Large Language Models): Mô hình ngôn ngữ lớn, là một loại mô hình AI có khả năng hiểu và tạo ra ngôn ngữ tự nhiên, giúp AI Web Agents hiểu và phản hồi yêu cầu của người dùng.
Headless Browser: Trình duyệt không đầu, là trình duyệt web hoạt động mà không có giao diện người dùng đồ họa, thường được sử dụng để tự động hóa các tác vụ web.
API (Application Programming Interface): Giao diện lập trình ứng dụng, cho phép các ứng dụng khác nhau giao tiếp và trao đổi dữ liệu với nhau.
DOM (Document Object Model): Mô hình đối tượng tài liệu, là cấu trúc đại diện cho các thành phần của một trang web, cho phép các tác nhân AI tương tác và thao tác với nội dung trang.
XSS (Cross-Site Scripting): Một loại lỗ hổng bảo mật web cho phép kẻ tấn công chèn mã độc vào các trang web mà người dùng khác truy cập.
CSRF (Cross-Site Request Forgery): Một loại tấn công web trong đó kẻ tấn công lợi dụng việc người dùng đã đăng nhập để thực hiện các hành động trái phép.
Prompt Injection: Kỹ thuật tấn công bằng cách chèn các lệnh hoặc thông tin độc hại vào các lời nhắc (prompts) mà AI sử dụng, nhằm điều khiển hành vi của AI.
Sandboxing: Kỹ thuật cô lập một ứng dụng hoặc quy trình trong một môi trường hạn chế để ngăn chặn nó gây hại cho hệ thống.
Context Leakage: Rò rỉ ngữ cảnh, là việc thông tin nhạy cảm bị lộ ra ngoài do lỗi trong quá trình xử lý dữ liệu của hệ thống.
A2A (Agent-to-Agent): Giao thức cho phép các tác nhân AI giao tiếp và phối hợp với nhau để thực hiện các tác vụ phức tạp.
MCP (Model Context Protocol): Giao thức truyền ngữ cảnh mô hình, giúp các tác nhân AI chia sẻ thông tin và ngữ cảnh với nhau một cách an toàn.