Git Repos: Khi kho lưu trữ mã nguồn trở thành mục tiêu tấn công

July 19, 2025
2:52 pm

Trong khi lừa đảo và mã độc tống tiền tràn lan trên các mặt báo, một nguy cơ tiềm ẩn khác vẫn âm thầm tồn tại trong hầu hết các doanh nghiệp: các kho lưu trữ Git bị lộ, rò rỉ dữ liệu nhạy cảm. Nguy cơ này lặng lẽ tạo ra một lối vào bí mật vào các hệ thống cốt lõi.

Git là xương sống của quá trình phát triển phần mềm hiện đại, chứa hàng triệu kho lưu trữ và phục vụ hàng ngàn tổ chức trên toàn thế giới. Tuy nhiên, giữa guồng quay hối hả hàng ngày để đưa sản phẩm ra thị trường, các nhà phát triển có thể vô tình bỏ quên các khóa API, token hoặc mật khẩu trong các tập tin cấu hình và tập tin mã, trao cho kẻ tấn công chìa khóa mở toang cánh cửa vào vương quốc.

Đây không chỉ là vấn đề vệ sinh kém; nó là một rủi ro chuỗi cung ứng mang tính hệ thống và ngày càng gia tăng. Khi các mối đe dọa trên không gian mạng ngày càng tinh vi, các yêu cầu tuân thủ cũng vậy. Các khuôn khổ bảo mật như NIS2, SOC2 và ISO 27001 hiện yêu cầu bằng chứng cho thấy các quy trình phân phối phần mềm được củng cố và rủi ro từ bên thứ ba được kiểm soát. Thông điệp rất rõ ràng: bảo mật các kho lưu trữ Git của bạn không còn là tùy chọn, mà là điều cần thiết.

Dưới đây, chúng ta sẽ xem xét hồ sơ rủi ro của các thông tin xác thực và bí mật bị lộ trong các kho lưu trữ mã công khai và riêng tư, cách thức vectơ tấn công này đã được sử dụng trong quá khứ và những gì bạn có thể làm để giảm thiểu rủi ro.

Bức tranh toàn cảnh về các mối đe dọa kho Git

Bức tranh toàn cảnh về các mối đe dọa xung quanh kho lưu trữ Git đang mở rộng nhanh chóng, do một số nguyên nhân:

Sự phức tạp ngày càng tăng của các hoạt động DevOps
Sự phụ thuộc rộng rãi vào các nền tảng kiểm soát phiên bản công khai như GitHub
Lỗi của con người và tất cả các cấu hình sai kéo theo: từ các kiểm soát truy cập được áp dụng kém đến các môi trường thử nghiệm bị quên bị đẩy lên sản xuất

Không có gì ngạc nhiên khi tốc độ phát triển tăng lên thì cơ hội để kẻ tấn công vũ khí hóa các kho lưu trữ mã bị lộ cũng tăng theo. Chỉ riêng GitHub đã báo cáo hơn 39 triệu bí mật bị rò rỉ vào năm 2024 — tăng 67% so với năm trước. Chúng bao gồm thông tin xác thực đám mây, token API và khóa SSH. Hầu hết các trường hợp lộ thông tin này bắt nguồn từ:

Tài khoản nhà phát triển cá nhân
Các dự án bị bỏ rơi hoặc phân nhánh
Kho lưu trữ bị cấu hình sai hoặc không được kiểm tra

Đối với kẻ tấn công, đây không chỉ là những sai sót, mà là điểm xâm nhập. Các kho Git bị lộ cung cấp một con đường trực tiếp, ít trở ngại vào các hệ thống nội bộ và môi trường nhà phát triển. Điều bắt đầu như một sơ suất nhỏ có thể leo thang thành một cuộc xâm nhập toàn diện, thường là không kích hoạt bất kỳ cảnh báo nào.

Làm thế nào kẻ tấn công khai thác các kho Git bị lộ?

Các công cụ và trình quét công khai giúp thu thập bí mật từ các kho Git bị lộ trở nên dễ dàng, và kẻ tấn công biết cách nhanh chóng chuyển từ mã bị lộ sang cơ sở hạ tầng bị xâm nhập.

Khi đã vào được kho lưu trữ, kẻ tấn công sẽ tìm kiếm:

Bí mật và thông tin xác thực: Khóa API, token xác thực và mật khẩu. Thường ẩn trong tầm mắt trong các tập tin cấu hình hoặc lịch sử commit.
Thông tin tình báo về cơ sở hạ tầng: Chi tiết về các hệ thống nội bộ như tên máy chủ, địa chỉ IP, cổng hoặc sơ đồ kiến trúc.
Logic nghiệp vụ: Mã nguồn có thể tiết lộ các lỗ hổng trong xác thực, xử lý phiên hoặc truy cập API.

Những thông tin chi tiết này sau đó được vũ khí hóa cho:

Truy cập ban đầu: Kẻ tấn công sử dụng thông tin xác thực hợp lệ để xác thực vào:

Môi trường đám mây — ví dụ: vai trò AWS IAM thông qua các khóa truy cập bị lộ, Nguyên tắc dịch vụ Azure
Cơ sở dữ liệu — ví dụ: MongoDB, PostgreSQL, MySQL sử dụng các chuỗi kết nối được mã hóa cứng
Nền tảng SaaS — tận dụng các token API được tìm thấy trong các tập tin cấu hình hoặc lịch sử commit

Di chuyển ngang: Khi đã vào bên trong, kẻ tấn công sẽ tiếp tục bằng cách:

Liệt kê các API nội bộ bằng cách sử dụng thông số kỹ thuật OpenAPI/Swagger bị lộ
Truy cập các quy trình CI/CD bằng cách sử dụng các token bị rò rỉ từ GitHub Actions, GitLab CI hoặc Jenkins
Sử dụng các quyền bị cấu hình sai để di chuyển qua các dịch vụ nội bộ hoặc tài khoản đám mây

Duy trì và lọc dữ liệu: Để duy trì quyền truy cập và trích xuất dữ liệu theo thời gian, chúng:

Tạo người dùng IAM hoặc khóa SSH mới để tiếp tục nhúng
Triển khai các hàm Lambda hoặc container độc hại để hòa nhập với các khối lượng công việc thông thường
Lọc dữ liệu từ các bucket S3, Azure Blob Storage hoặc các nền tảng ghi nhật ký như CloudWatch và Log Analytics

Một khóa AWS bị rò rỉ duy nhất có thể phơi bày toàn bộ dấu chân đám mây. Một tập tin .git/config bị quên hoặc commit cũ vẫn có thể chứa thông tin xác thực đang hoạt động.

Những trường hợp lộ thông tin này thường bỏ qua hoàn toàn các biện pháp phòng thủ vành đai truyền thống. Chúng tôi đã thấy kẻ tấn công chuyển từ các kho Git bị lộ → đến máy tính xách tay của nhà phát triển → đến mạng nội bộ. Mối đe dọa này không phải là lý thuyết, mà là một chuỗi giết người mà chúng tôi đã xác thực trong môi trường sản xuất trực tiếp bằng cách sử dụng Pentera.

Các chiến lược giảm thiểu rủi ro được đề xuất

Giảm rủi ro phơi nhiễm bắt đầu với những điều cơ bản. Mặc dù không có biện pháp kiểm soát đơn lẻ nào có thể loại bỏ các cuộc tấn công dựa trên Git, nhưng các biện pháp thực hành sau đây giúp giảm khả năng rò rỉ bí mật – và hạn chế tác động khi chúng xảy ra.

1. Quản lý bí mật

Lưu trữ bí mật bên ngoài cơ sở mã của bạn bằng cách sử dụng các giải pháp quản lý bí mật chuyên dụng như HashiCorp Vault (mã nguồn mở), AWS Secrets Manager hoặc Azure Key Vault. Các công cụ này cung cấp khả năng lưu trữ an toàn, kiểm soát truy cập chi tiết và ghi nhật ký kiểm tra.
Tránh mã hóa cứng bí mật trong các tập tin nguồn hoặc tập tin cấu hình. Thay vào đó, hãy chèn bí mật tại thời điểm chạy thông qua các biến môi trường hoặc API an toàn.
Tự động xoay vòng bí mật để giảm thời gian phơi nhiễm.

2. Vệ sinh mã

Thực thi các chính sách .gitignore nghiêm ngặt để loại trừ các tập tin có thể chứa thông tin nhạy cảm, chẳng hạn như .env, config.yaml hoặc credentials.json.
Tích hợp các công cụ quét như Gitleaks, Talisman và git-secrets vào quy trình làm việc của nhà phát triển và quy trình CI/CD để phát hiện bí mật trước khi chúng được commit.

3. Kiểm soát truy cập

Thực thi nguyên tắc đặc quyền tối thiểu trên tất cả các kho Git. Các nhà phát triển, công cụ CI/CD và tích hợp của bên thứ ba chỉ nên có quyền truy cập mà họ cần – không hơn.
Sử dụng token ngắn hạn hoặc thông tin xác thực giới hạn thời gian bất cứ khi nào có thể.
Thực thi xác thực đa yếu tố (MFA) và đăng nhập một lần (SSO) trên các nền tảng Git.
Thường xuyên kiểm tra nhật ký truy cập của người dùng và máy để xác định các đặc quyền quá mức hoặc hành vi đáng ngờ.

Tìm dữ liệu Git bị lộ trước khi kẻ tấn công làm

Các kho Git bị lộ không phải là một rủi ro trường hợp đặc biệt, mà là một vectơ tấn công phổ biến, đặc biệt là trong môi trường DevOps phát triển nhanh chóng. Mặc dù các trình quét bí mật và thực hành vệ sinh là rất cần thiết, nhưng chúng thường không cung cấp được bức tranh đầy đủ. Kẻ tấn công không chỉ đọc mã của bạn; chúng đang sử dụng nó như một bản đồ để đi thẳng vào cơ sở hạ tầng của bạn.

Tuy nhiên, ngay cả những nhóm sử dụng các biện pháp thực hành tốt nhất cũng bị mù trước một câu hỏi quan trọng: liệu kẻ tấn công có thực sự có thể sử dụng lỗ hổng này để đột nhập hay không? Bảo mật các kho lưu trữ của bạn đòi hỏi nhiều hơn là chỉ kiểm tra tĩnh. Nó đòi hỏi xác thực liên tục, khắc phục chủ động và tư duy của đối thủ. Khi các yêu cầu tuân thủ thắt chặt và bề mặt tấn công mở rộng, các tổ chức phải coi việc lộ mã là một phần cốt lõi trong chiến lược bảo mật của họ chứ không phải là một suy nghĩ muộn màng.

Giải thích thuật ngữ:

API key: Mã định danh duy nhất để xác thực và cấp quyền truy cập vào API.
Token: Chuỗi ký tự đại diện cho quyền truy cập vào một tài nguyên cụ thể, thường có thời hạn.
DevOps: Phương pháp phát triển phần mềm kết hợp phát triển (Dev) và vận hành (Ops) để tăng tốc độ và hiệu quả.
GitHub: Nền tảng lưu trữ mã nguồn phổ biến, sử dụng hệ thống quản lý phiên bản Git.
CI/CD: Quy trình tích hợp liên tục (Continuous Integration) và triển khai liên tục (Continuous Deployment) giúp tự động hóa quá trình phát triển và triển khai phần mềm.
AWS IAM: Dịch vụ quản lý quyền truy cập và danh tính của Amazon Web Services, cho phép kiểm soát ai có quyền truy cập vào tài nguyên AWS.
Azure Service Principals: Danh tính bảo mật được sử dụng bởi các ứng dụng, dịch vụ và công cụ tự động để truy cập tài nguyên Azure.
SaaS: Mô hình phân phối phần mềm mà ứng dụng được cung cấp qua internet dưới dạng dịch vụ.
MFA (Multi-Factor Authentication): Phương pháp xác thực yêu cầu người dùng cung cấp nhiều hơn một yếu tố xác minh để chứng minh danh tính.
SSO (Single Sign-On): Cơ chế cho phép người dùng đăng nhập một lần và truy cập nhiều ứng dụng và dịch vụ khác nhau mà không cần phải đăng nhập lại.