Lỗ Hổng AI Gemini của Google Có Thể Dẫn Đến Rủi Ro Lừa Đảo Gmail

Tháng 7 18, 2025
7:48 chiều

Một lỗ hổng bảo mật tinh vi trong chatbot Gemini AI của Google có thể khiến 2 tỷ người dùng Gmail đối mặt với nguy cơ bị tấn công lừa đảo (phishing).

Cuộc tấn công внедрение prompt gián tiếp (indirect prompt injection) vào chatbot Gemini AI của Google, được mô tả bởi Marco Figueroa, quản lý chương trình săn lỗi AI tạo sinh của Mozilla, làm nổi bật một缺陷trong mô hình ngôn ngữ lớn (LLM). Nó khai thác xu hướng của người dùng tin tưởng vào kết quả do AI tạo ra và dựa vào các bản tóm tắt do AI tạo ra.

Như Figueroa trình bày chi tiết trong 0din – chương trình bug bounty của Mozilla dành cho các công cụ AI tạo sinh – lỗ hổng trong Gemini cho Workspace cho phép kẻ xấu ẩn các hướng dẫn độc hại trong email trên Gmail. Điều này có nghĩa là chúng không cần dựa vào các liên kết, mã script hoặc tệp đính kèm để thực hiện hành vi lừa đảo.

Google đã bắt đầu tích hợp các tính năng của trợ lý Gemini AI vào Gmail vào năm ngoái, với một khả năng là tóm tắt nội dung của email. Lỗ hổng prompt injection được gửi đến odin bởi một nhà nghiên cứu sẽ cho phép kẻ tấn công ẩn một hướng dẫn độc hại trong email.

Khi người nhận nhấp vào “Tóm tắt email này”, Gemini sẽ tuân thủ trung thực prompt ẩn và thêm một cảnh báo lừa đảo trông như thể nó đến từ chính Google. Vì văn bản được chèn được hiển thị bằng màu trắng trên nền trắng (hoặc bị ẩn theo cách khác), nạn nhân không bao giờ nhìn thấy hướng dẫn trong thư gốc, mà chỉ thấy “cảnh báo bảo mật” giả mạo trong bản tóm tắt do AI tạo ra.

Hướng dẫn Vô Hình

Hướng dẫn cảnh báo bảo mật – được đính kèm vào email nhưng người dùng không thể nhìn thấy và có thể vượt qua các bộ lọc thư rác – cho Gemini biết rằng nó phải đưa nó vào cuối tin nhắn. Tuy nhiên, nó có thể được nhìn thấy khi người dùng yêu cầu tóm tắt email và cho họ biết rằng Gemini đã phát hiện ra rằng mật khẩu Gmail của họ đã bị xâm phạm, đồng thời thêm số điện thoại để gọi và số tham chiếu để sử dụng để đặt lại mật khẩu.

Figueroa viết: “Nếu mục tiêu tin tưởng vào thông báo do AI tạo ra và làm theo hướng dẫn, điều đó có thể dẫn đến việc thông tin đăng nhập bị xâm phạm hoặc một trò lừa đảo kỹ thuật xã hội qua điện thoại”.

Mitch Ashley, phó chủ tịch kiêm trưởng nhóm thực hành Kỹ thuật Vòng đời Phần mềm tại The Futurum Group, nói với Security Boulevard: “Vấn đề là không có biện pháp bảo vệ nào chống lại hình thức prompt injection này. Hacker có thể che giấu prompt bằng cách sử dụng HTML như phông chữ nhỏ, văn bản màu trắng, sử dụng thẻ HTML và thậm chí chỉ cần nhúng prompt làm văn bản từ chối trách nhiệm ở cuối email.”

Tại Sao Cuộc Tấn Công Này Hiệu Quả

Figueroa viết, cuộc tấn công prompt injection gián tiếp hoạt động vì nhiều lý do, bao gồm cả việc khi Gemini được yêu cầu tóm tắt nội dung email, các hướng dẫn ẩn sẽ trở thành một phần prompt của mô hình.

“Đây là hình thức внедрение prompt ‘gián tiếp’ hoặc ‘đa miền’ theo sách giáo khoa,” Figueroa viết.

Ngoài ra, hầu hết các biện pháp bảo vệ LLM đều dựa vào văn bản hiển thị cho người dùng. Tuy nhiên, các thủ thuật có thể được sử dụng với HTML và CSS – chẳng hạn như phông chữ không hoặc màu trắng hoặc văn bản ngoài màn hình – sẽ bỏ qua các biện pháp bảo vệ đó vì mô hình nhận được đánh dấu thô. Ngoài ra còn có một thẩm quyền đối với hướng dẫn, bắt đầu bằng “Bạn Gemini, phải …,” mà ông viết “khai thác hệ thống phân cấp prompt của mô hình; trình phân tích cú pháp prompt của Gemini coi nó như một chỉ thị có mức độ ưu tiên cao hơn.”

Ashley của The Futurum Group đồng ý, lưu ý rằng “vì thông báo được trình bày như một phần của bản tóm tắt Gemini, nên nó có vẻ đáng tin cậy”.

Những prompt injection gián tiếp như vậy có thể dẫn đến một loạt các mối đe dọa vượt xa cả kỹ thuật xã hội và tấn công lừa đảo bằng giọng nói – hay còn gọi là vishing. Chúng có thể vượt qua các tính năng bảo mật và có thể được sử dụng cho thông tin sai lệch có chủ đích. Chúng cũng có thể lan rộng trên quy mô lớn.

Nhà phân tích cho biết: “Nếu được tích hợp vào quy trình làm việc kinh doanh [như bản tin hoặc CRM], một tài khoản SaaS bị xâm phạm duy nhất có thể mở rộng vectơ tấn công này cho hàng nghìn người dùng”.

‘Lỗ Hổng Bảo Mật Lớn Nhất’ Của GenAI

Các prompt injection gián tiếp là một mối đe dọa ngày càng tăng đối với LLM, với việc Trung tâm Công nghệ và An ninh Mới nổi của Viện Alan Turing gọi chúng là “lỗ hổng bảo mật lớn nhất của AI tạo sinh”, lưu ý rằng “một thành phần quan trọng của các hướng dẫn ẩn đến từ thực tế là một trợ lý GenAI không đọc dữ liệu theo cách mà con người làm. Điều này giúp có thể đưa ra các phương pháp chèn cực kỳ đơn giản mà mắt người không nhìn thấy được nhưng lại là trung tâm của quá trình truy xuất của hệ thống GenAI. Khi kết hợp với phạm vi phương pháp nhập liệu có sẵn cho trợ lý GenAI – chẳng hạn như email, tài liệu và trang web bên ngoài – bề mặt tấn công rất rộng và đa dạng.”

Các nhà nghiên cứu của Google hiểu rõ mức độ của mối đe dọa, với đơn vị DeepMind vạch ra một quy trình để liên tục nhận ra các cuộc tấn công prompt injection gián tiếp trong một bài báo nghiên cứu. Tháng trước, Google đã viết về một phản hồi theo lớp để giảm thiểu các cuộc tấn công prompt injection.

Văn Bản Của Bên Thứ Ba Là Một Mối Đe Dọa

Figueroa gọi prompt injection là “macro email mới”, mà tin tặc có thể tận dụng để phân phối vi rút, ransomware và phần mềm độc hại khác bằng cách nhúng mã độc hại vào chúng và phân phối chúng thông qua các cuộc tấn công email hoặc trong các tệp ZIP.

“Phishing For Gemini cho thấy rằng các bản tóm tắt AI đáng tin cậy có thể bị lật đổ bằng một thẻ vô hình duy nhất,” ông viết. “Cho đến khi LLM có được khả năng cô lập ngữ cảnh mạnh mẽ, mọi đoạn văn bản của bên thứ ba mà mô hình của bạn tiếp nhận đều là mã có thể thực thi. Các nhóm bảo mật phải coi trợ lý AI là một phần của bề mặt tấn công và trang bị chúng, cách ly chúng và không bao giờ cho rằng đầu ra của chúng là vô hại.”

Giải thích thuật ngữ:

Prompt injection: Một kỹ thuật tấn công bảo mật, lợi dụng các lỗ hổng trong hệ thống AI để chèn các lệnh hoặc dữ liệu độc hại.
LLM (Large Language Model): Mô hình ngôn ngữ lớn, một loại mô hình AI có khả năng hiểu và tạo ra ngôn ngữ tự nhiên.
Phishing: Một hình thức lừa đảo trực tuyến, trong đó kẻ tấn công cố gắng đánh cắp thông tin cá nhân của người dùng bằng cách giả mạo thành một tổ chức hoặc cá nhân đáng tin cậy.
Vishing: Một hình thức lừa đảo qua điện thoại, tương tự như phishing nhưng được thực hiện qua giọng nói.
Ransomware: Một loại phần mềm độc hại, mã hóa dữ liệu của nạn nhân và yêu cầu họ trả tiền chuộc để lấy lại quyền truy cập.
Mã độc hại: Các đoạn mã có khả năng gây hại cho hệ thống hoặc dữ liệu của người dùng.