Sự ra đời của ChatGPT và các công nghệ học sâu khác đã nhanh chóng dẫn đến một loạt các vụ kiện chống lại các nhà phát triển mô hình. Các lý thuyết pháp lý rất khác nhau, nhưng hầu hết đều bắt nguồn từ vấn đề bản quyền: nguyên đơn cho rằng việc sử dụng các tác phẩm của họ để huấn luyện các mô hình là vi phạm bản quyền; các nhà phát triển phản biện rằng việc huấn luyện của họ là sử dụng hợp lý. Trong khi đó, các nhà phát triển đang thực hiện càng nhiều thỏa thuận cấp phép càng tốt để ngăn chặn các vụ kiện tụng trong tương lai, và có thể chắc chắn rằng các vụ kiện tụng hiện tại là một cuộc tranh giành phức tạp để giành lấy đòn bẩy trong các cuộc đàm phán giải quyết.
Những vụ kiện này có thể kết thúc theo một trong ba cách: người giữ bản quyền thắng, tất cả mọi người đều dàn xếp, hoặc các nhà phát triển thắng. Như chúng tôi đã lưu ý trước đây, chúng tôi nghĩ rằng các nhà phát triển có lý lẽ tốt hơn. Nhưng đó không phải là lý do duy nhất họ nên thắng những vụ kiện này: mặc dù những người sáng tạo có một lời phàn nàn chính đáng, việc mở rộng bản quyền sẽ không bảo vệ công việc khỏi tự động hóa. Một chiến thắng cho người giữ bản quyền hoặc thậm chí là một thỏa thuận dàn xếp cũng có thể dẫn đến tác hại đáng kể, đặc biệt nếu nó làm suy yếu các biện pháp bảo vệ sử dụng hợp lý cho mục đích nghiên cứu hoặc các biện pháp bảo vệ nghệ thuật cho người sáng tạo. Trong bài đăng này và một bài tiếp theo, chúng tôi sẽ giải thích lý do tại sao.
Tình hình hiện tại
Đầu tiên, chúng ta cần một số bối cảnh, vì vậy đây là tình hình hiện tại:
Khiếu nại DMCA
Nhiều tòa án đã bác bỏ các khiếu nại theo Mục 1202(b) của Đạo luật Bản quyền Kỹ thuật số Thiên niên kỷ, bắt nguồn từ các cáo buộc rằng các nhà phát triển đã xóa hoặc thay đổi thông tin ghi nhận tác giả trong quá trình huấn luyện. Trong Raw Story Media v. OpenAI, Inc., Tòa án Quận phía Nam của New York đã bác bỏ những khiếu nại này vì nguyên đơn đã không “cáo buộc một cách правдоподібно” rằng việc huấn luyện ChatGPT trên các tác phẩm của họ đã thực sự gây hại cho họ, và không có “rủi ro đáng kể” nào mà ChatGPT sẽ xuất ra các bài báo của họ.
Tòa án đã chấp thuận các kiến nghị bác bỏ các khiếu nại DMCA tương tự trong Andersen v. Stability AI, Ltd., The Intercept Media, Inc. v. OpenAI, Inc., Kadrey v. Meta Platforms, Inc., và Tremblay v. OpenAI.
Một vụ kiện tương tự khác, Doe v. GitHub, Inc. sẽ sớm được tranh luận tại Vòng Ninth Circuit.
Khiếu nại vi phạm bản quyền
Người giữ bản quyền cũng khẳng định vi phạm bản quyền thông thường, và các phán quyết ban đầu là một hỗn hợp. Trong Kadrey v. Meta Platforms, Inc., tòa án đã bác bỏ những tuyên bố “vô nghĩa” rằng các mô hình LLaMA của Meta tự chúng là các tác phẩm phái sinh vi phạm bản quyền.
Tuy nhiên, trong Andersen v. Stability AI Ltd., tòa án cho rằng các khiếu nại bản quyền dựa trên giả định rằng các tác phẩm của nguyên đơn đã được bao gồm trong một tập dữ liệu huấn luyện có thể được tiến hành, nơi việc sử dụng tên của nguyên đơn làm lời nhắc tạo ra những hình ảnh “tương tự như các tác phẩm nghệ thuật của nguyên đơn”. Tòa án cũng cho rằng các nguyên đơn đã правдоподібно cáo buộc mô hình được thiết kế để “thúc đẩy hành vi vi phạm”.
Vụ việc vẫn còn ở giai đoạn đầu—tòa án chỉ quyết định xem các nguyên đơn đã cáo buộc đủ để biện minh cho các thủ tục tố tụng tiếp theo hay chưa—nhưng đó là một tiền lệ nguy hiểm. Bảo vệ bản quyền chỉ mở rộng đến cách thể hiện thực tế của tác giả—các sự kiện và ý tưởng cơ bản không được bảo vệ. Điều đó có nghĩa là mặc dù một mô hình không thể xuất ra một bản sao giống hệt mà không vi phạm, nó có thể tự do tạo ra những hình ảnh “tương tự” về mặt phong cách. Chỉ riêng việc huấn luyện là không đủ để làm phát sinh một khiếu nại vi phạm, và tòa án đã nhầm lẫn một cách không được phép giữa các đầu ra tương tự với việc sao chép cách thể hiện được bảo vệ.
Sử dụng hợp lý
Trong hầu hết các vụ kiện AI, các tòa án vẫn chưa xem xét—chứ đừng nói đến việc quyết định—liệu sử dụng hợp lý có được áp dụng hay không. Tuy nhiên, trong một trường hợp bất thường, thẩm phán đã thay đổi ý kiến. Trong Thomson Reuters Enterprise Centre GMBH v. Ross Intelligence, Inc., vấn đề liên quan đến công nghệ nghiên cứu pháp lý. Thomson Reuters đã chuẩn bị các chú thích mô tả các ý kiến pháp lý. Ross đã thuê luật sư để viết lại chúng, và đầu ra đó đã huấn luyện công cụ tìm kiếm của Ross.
Ban đầu, tòa án đã làm đúng, cho rằng việc sử dụng các tác phẩm có bản quyền “như một bước trong quá trình cố gắng phát triển một sản phẩm ‘hoàn toàn mới’, mặc dù là cạnh tranh” là sao chép trung gian mang tính biến đổi—tức là sử dụng hợp lý.
Tuy nhiên, sau khi xem xét lại, thẩm phán đã thay đổi ý kiến, về cơ bản là không đồng ý với án lệ trước đây liên quan đến các công cụ tìm kiếm. Chúng tôi nghĩ rằng một tòa án phúc thẩm khó có thể duy trì sự khác biệt này. Nếu điều đó xảy ra, nó có thể gây ra các vấn đề pháp lý cho các nhà phát triển AI—và bất kỳ ai xây dựng các công cụ tìm kiếm.
Luật bản quyền ủng hộ các công nghệ mới giúp tìm hiểu và định vị thông tin—ngay cả khi việc phát triển công cụ này đòi hỏi phải sao chép nội dung để lập chỉ mục. Công cụ của Ross cung cấp các liên kết đến các ý kiến pháp lý, không phải nội dung của Thomson Reuters. Nó liên quan đến các phán quyết pháp lý không được bảo vệ bản quyền, không phải các chú thích sáng tạo.
Thomson Reuters thường xuyên đẩy các giới hạn của bản quyền—chẳng hạn như tuyên bố quyền sở hữu đối với số trang ý kiến pháp lý. Đáng buồn thay, thẩm phán trong trường hợp này đã cho phép họ làm như vậy một lần nữa. Chúng tôi hy vọng tòa án phúc thẩm sẽ đảo ngược.
Các thỏa thuận phụ
Trong khi tất cả những điều này đang diễn ra, các nhà phát triển như OpenAI và Google đã thực hiện các thỏa thuận cấp phép trị giá hàng triệu đô la với Reddit, Wall Street Journal và những chủ sở hữu bản quyền khác. Hiện có một thị trường cấp phép trị giá $2,5 tỷ cho dữ liệu huấn luyện—mặc dù việc sử dụng dữ liệu đó gần như chắc chắn là sử dụng hợp lý.
Điều gì còn thiếu
Vụ kiện này đang nhận được rất nhiều sự chú ý—và nó nên như vậy. Cổ phần rất cao. Nhưng những cổ phần thực sự đang bị mất. Những vụ kiện này không chỉ là về việc ai kiếm được lợi nhuận từ AI tạo sinh. Kết quả sẽ quyết định xem liệu chỉ các công ty có túi tiền rủng rỉnh mới có thể định hình tương lai của AI hay không.
Thêm về điều đó vào ngày mai.
Bài đăng này là một phần trong loạt bài AI và Bản quyền của chúng tôi. Xem bài đăng khác của chúng tôi trong loạt bài này.
Giải thích thuật ngữ:
- Học sâu (Deep learning): Một nhánh của trí tuệ nhân tạo, sử dụng mạng nơ-ron sâu để phân tích dữ liệu và đưa ra quyết định.
- Sử dụng hợp lý (Fair use): Một nguyên tắc trong luật bản quyền cho phép sử dụng các tác phẩm có bản quyền mà không cần xin phép trong một số trường hợp nhất định, chẳng hạn như phê bình, bình luận, báo cáo tin tức, giảng dạy, học bổng và nghiên cứu.
- DMCA (Digital Millennium Copyright Act): Đạo luật Bản quyền Kỹ thuật số Thiên niên kỷ của Hoa Kỳ, nhằm bảo vệ bản quyền trong kỷ nguyên số.
- AI tạo sinh (Generative AI): Loại trí tuệ nhân tạo có khả năng tạo ra nội dung mới, chẳng hạn như văn bản, hình ảnh, âm thanh và video.