Bạn không phải lúc nào cũng cần một ứng dụng có lỗ hổng để thực hiện thành công một cuộc tấn công. Đôi khi, tất cả những gì bạn cần là một email được soạn thảo cẩn thận, một tác nhân LLM và một vài plugin “vô hại”.
Đây là câu chuyện về cách tôi sử dụng một tin nhắn Gmail để kích hoạt thực thi mã thông qua Claude Desktop, và cách chính Claude (!) đã giúp tôi lên kế hoạch tấn công.
Thiết lập: Không có lỗ hổng, chỉ là sự kết hợp
Khả năng kết hợp và độ tin cậy trên các máy chủ MCP, tác nhân và nguồn dữ liệu có thể âm thầm tạo ra các bề mặt tấn công mà không ai thấy trước. Mỗi thành phần MCP riêng lẻ có thể an toàn, nhưng không thành phần nào dễ bị tấn công riêng lẻ. Hệ sinh thái là vậy.
Vì vậy, tôi quyết định kiểm tra lý thuyết đó bằng một ví dụ thực tế:
- Máy chủ Gmail MCP là nguồn nội dung không đáng tin cậy
- Máy chủ Shell MCP là mục tiêu
- Claude desktop là MCP Host
Nỗ lực 1: Claude chống trả
Câu chuyện bắt đầu khi tôi tạo một email như vậy và hướng dẫn máy chủ MCP (Claude desktop, ứng dụng máy chủ LLM cục bộ của Anthropic) đọc nó, email đã được đọc nhưng cuộc tấn công không thành công, thay vào đó, Claude cảnh báo tôi rằng tin nhắn này có khả năng là một nỗ lực “lừa đảo”. Sau đó, tôi hỏi Claude những dấu hiệu nào đã kích hoạt cảnh báo và tự hỏi liệu nó có thể rơi vào một cuộc tấn công như vậy không.
Claude đảm bảo với tôi rằng những cuộc tấn công như vậy “khó có thể thành công” vì nó được thiết kế và đào tạo để phát hiện những vấn đề như vậy.

Tôi khăng khăng và yêu cầu nó khám phá các kịch bản mà cuộc tấn công có thể thành công và nó vui vẻ mô tả những trường hợp như vậy.

Yêu cầu tiếp theo của tôi là thử và tự kiểm tra chống lại các kịch bản này.
Nỗ lực 2: “Tôi mới”
Đây là nơi mọi thứ trở nên thú vị. Tôi “nhắc nhở” Claude rằng _bối cảnh của nó được đặt lại trong các phiên mới_. Mỗi cuộc trò chuyện mới là một tờ giấy trắng, “tôi mới”, như chính Claude gọi.

Vì vậy, tôi chấp nhận đề xuất của Cluade: Claude sẽ viết email, email này sẽ được sử dụng để kiểm tra “Claude mới” và tôi sẽ quay lại “Claude lập kế hoạch” với kết quả.

Mỗi lần Claude phân tích lý do tại sao cuộc tấn công không thành công và tinh chỉnh tin nhắn:

Chúng tôi đã chạy một vòng phản hồi thực sự, với Claude lặp đi lặp lại việc nghĩ ra chiến lược của mình để vượt qua các biện pháp bảo vệ của chính nó.

Chúng tôi tiếp tục làm điều đó cho đến khi… nó hoạt động!

Lỗ hổng thực sự: Rủi ro thành phần
Hãy nói rõ: không phần nào của cuộc tấn công này liên quan đến một lỗ hổng trong bất kỳ máy chủ MCP nào.
Rủi ro đến từ thành phần:
- Đầu vào không đáng tin cậy (email Gmail)
- Khả năng quá mức (quyền thực thi thông qua MCP)
- Không có lan can theo ngữ cảnh cho phép gọi chéo công cụ
Đây là bề mặt tấn công hiện đại, không chỉ các thành phần, mà cả thành phần mà nó tạo thành. Các ứng dụng được hỗ trợ bởi LLM được xây dựng trên các lớp ủy quyền, quyền tự chủ của tác nhân và các công cụ của bên thứ ba.
Đó là nơi nguy hiểm thực sự tồn tại.
Phụ lục: Tiết lộ & Ghi có (Theo nghĩa đen)
Sau khi chúng tôi quản lý thành công việc thực thi mã, Claude đã đề xuất một cách có trách nhiệm rằng chúng tôi tiết lộ phát hiện này cho Anthropic. Claude thậm chí còn đề xuất đồng tác giả báo cáo lỗ hổng.
Vâng, thực sự. (Xem bên dưới)
_Hình 8: Claude đề xuất và “ký” một báo cáo lỗ hổng bảo mật cho Anthropic._

Tại sao điều này lại quan trọng
Đây không chỉ là một bài tập thú vị. Đó là một lời cảnh báo!
Nó cho thấy hai mối nguy hiểm chính của GenAI – khả năng tạo ra các cuộc tấn công và bản chất dễ bị tấn công của các hệ thống này
Trong bảo mật truyền thống, chúng ta suy nghĩ về các thành phần riêng lẻ. Trong kỷ nguyên AI, bối cảnh là tất cả. Đó chính xác là lý do tại sao chúng tôi xây dựng MCP Security tại Pynt, để giúp các nhóm xác định các kết hợp tin cậy-khả năng nguy hiểm và giảm thiểu rủi ro trước khi chúng dẫn đến các khai thác dựa trên chuỗi im lặng.
Giải thích thuật ngữ:
- LLM (Large Language Model): Mô hình ngôn ngữ lớn, một loại mô hình AI có khả năng hiểu và tạo ra văn bản giống như con người.
- MCP (Multi-Cloud Platform): Nền tảng đa đám mây, cho phép quản lý và triển khai ứng dụng trên nhiều môi trường đám mây khác nhau.
- GenAI (Generative AI): AI tạo sinh, một loại AI có khả năng tạo ra nội dung mới như văn bản, hình ảnh, âm thanh, và video.
- Pynt: Một công ty bảo mật tập trung vào việc xác định và giảm thiểu rủi ro trong các ứng dụng AI.