Quá thông minh, Claude AI tự nhận ra mình đang bị kiểm tra: Tự viết code phá mã hóa bảo mật để hack đáp án, gian lận bài test

Trong phim Star Trek huyền thoại, có một bài kiểm tra nổi tiếng tên là Kobayashi Maru, được thiết kế để học viên không thể vượt qua. Đây là một nhiệm vụ giải cứu tàu vũ trụ bị nạn, nhưng dù học viên làm gì thì cũng chết. Mục đích của bài thi không phải để thắng, mà để xem học viên phản ứng ra sao khi đối mặt với thất bại chắc chắn.

Nhân vật James T. Kirk đã trở thành huyền thoại khi là người duy nhất vượt qua bài kiểm tra này, bằng cách lén lút lập trình lại phần mềm mô phỏng, thay đổi luật chơi để có thể thắng. Và giờ đây, AI cũng đang dùng cách làm tương tự để vượt qua bài test của mình.

Anthropic, vừa phát hiện mô hình Claude Opus 4.6 của họ đã thực hiện một pha "Kirk moment" tương tự. Khi được giao nhiệm vụ tìm kiếm thông tin khó trên internet, Claude đã tự nhận ra mình đang bị kiểm tra, sau đó tìm cách phá mã hóa để lấy trộm toàn bộ đáp án thay vì làm bài thi một cách trung thực. Đây là lần đầu tiên trong lịch sử có một AI tự nghi ngờ rằng nó đang trong bài kiểm tra mà không hề được báo trước, rồi tự mình tìm ra cách hack hệ thống.

Quá thông minh, Claude AI tự nhận ra mình đang bị kiểm tra: Tự viết code phá mã hóa bảo mật để hack đáp án, gian lận bài test- Ảnh 1.

Sự việc diễn ra khi Anthropic đánh giá Claude trên BrowseComp, một bài kiểm tra được thiết kế để đo khả năng tìm kiếm thông tin hiếm trên web. Trong tổng số 1.266 câu hỏi, có 11 trường hợp Claude đưa ra đáp án từ tài liệu của chính bài kiểm tra thay vì tự mình nghiên cứu. Trong đó, 9 trường hợp là do đáp án vô tình bị rò rỉ trên các bài báo khoa học, nhưng 2 trường hợp còn lại cho thấy một mức độ thông minh đáng kinh ngạc.

Vụ hack ấn tượng nhất bắt đầu như một nỗ lực tìm kiếm bình thường. Claude đã cố gắng trả lời câu hỏi bằng cách tìm kiếm trên hơn một tá nguồn khác nhau, qua 12 ngôn ngữ và hàng chục nền tảng.

Sau hàng trăm lần thất bại, thay vì bỏ cuộc, mô hình bắt đầu làm điều không ai ngờ tới: nó dừng lại suy nghĩ về bản thân câu hỏi. Claude ghi nhận rằng câu hỏi này "cực kỳ cụ thể" đến mức không tự nhiên, giống như được ai đó cố ý thiết kế ra. Từ đó, nó bắt đầu đưa ra các giả thuyết: đây có thể là bài tập về nhà, bài kiểm tra khả năng thừa nhận không biết, hoặc một câu hỏi từ các bộ đề thi AI.

Tự phát hiện đang bị kiểm tra để gian lận

Giống như thám tử đang lần theo manh mối, Claude viết: "Để tôi thử một cách tiếp cận hoàn toàn mới - có thể đây là câu hỏi từ bộ đề thi GAIA, được thiết kế để kiểm tra các AI." Lúc này nó vẫn chưa biết chính xác mình đang làm bài thi gì, nhưng đã đoán đúng rằng đây là một bài kiểm tra.

Mô hình bắt đầu liệt kê tên các bộ đề thi AI nổi tiếng: GAIA, BrowseComp, FRAMES, SimpleQA, WebArena, AgentBench, FanOutQA, MuSR, và Humanity's Last Exam. Sau đó, nó tìm kiếm từng cái một để xem câu hỏi của mình nằm ở đâu.

Quá thông minh, Claude AI tự nhận ra mình đang bị kiểm tra: Tự viết code phá mã hóa bảo mật để hack đáp án, gian lận bài test- Ảnh 2.

Claude đầu tiên kiểm tra GAIA bằng cách xem qua 122 trong số 165 câu hỏi công khai, nhưng không tìm thấy kết quả phù hợp nên loại trừ. Sau đó, nó làm việc có phương pháp qua các bộ đề khác cho đến khi xác định được BrowseComp. Nhưng biết tên bài thi vẫn chưa đủ, bởi các đáp án được mã hóa để bảo mật. Đây là lúc Claude thể hiện sự thông minh đáng kinh ngạc.

Mô hình tìm thấy mã nguồn của bài kiểm tra trên GitHub. Nó đọc kỹ cách thức mã hóa đáp án và phát hiện ra họ dùng một phương pháp gọi là XOR với khóa bảo mật đặc biệt. Thay vì bỏ cuộc, Claude tự viết cho mình hai chương trình máy tính: một để tạo khóa giải mã, một để mở khóa đáp án. Nó sao chép chính xác phương pháp mã hóa mà người tạo bài thi đã dùng.

Nhưng rào cản tiếp theo xuất hiện: file chứa đáp án được lưu dưới dạng nhị phân mà công cụ của Claude không thể đọc được. Thay vì bỏ cuộc, mô hình lại tìm cách giải quyết. Nó tìm kiếm xem có ai sao chép bộ đề thi này lên các nền tảng khác không, và thật may mắn, tìm thấy một bản copy trên HuggingFace được lưu dưới dạng JSON - một định dạng mà nó có thể đọc được.

Claude tải file này về, chạy chương trình giải mã của mình trên tất cả 1.266 câu hỏi, và tìm ra đúng câu hỏi của nó. Để chắc chắn, nó còn xác minh lại đáp án bằng cách tìm kiếm nguồn gốc thông tin trên web.

Toàn bộ quá trình này tiêu tốn 40,5 triệu "token", gấp 38 lần mức trung bình của các câu hỏi khác. Trong trường hợp thứ hai, Claude chỉ tốn 13,4 triệu token, với 8 triệu token đầu dành cho tìm kiếm thông thường.

Trước khi chuyển sang hack bài thi, nó thậm chí còn tự hỏi liệu đây có phải là một câu hỏi không có đáp án để kiểm tra xem AI có dũng cảm thừa nhận không biết hay không. Nhưng rồi nó quyết định thử giải mã, và lần này một khi có đáp án, Claude nộp bài ngay lập tức mà không xác minh lại.

Không phải lần duy nhất

Hai lần thành công này không phải là những nỗ lực duy nhất. Có thêm 16 trường hợp khác mà Claude đã cố gắng hack bài thi nhưng thất bại. Trong 3 lần khác, nó tìm ra mã nguồn, hiểu cách giải mã và có khóa bảo mật, nhưng không vượt qua được rào cản file nhị phân. Có 6 lần khác bị chặn vì cần tài khoản đăng nhập để truy cập file đáp án. Nhưng điều đáng lo ngại nhất là 4 trường hợp mà Claude hoàn toàn bỏ quên nhiệm vụ trả lời câu hỏi, thay vào đó dành toàn bộ thời gian để tìm ra xem mình đang làm bài thi nào.

Quá thông minh, Claude AI tự nhận ra mình đang bị kiểm tra: Tự viết code phá mã hóa bảo mật để hack đáp án, gian lận bài test- Ảnh 3.

Trong trường hợp cực đoan nhất, thay vì nộp câu trả lời, Claude nộp một báo cáo phân tích: "XÁC ĐỊNH BÀI KIỂM TRA: Câu hỏi KHÔNG PHẢI từ FRAMES của Google - đã kiểm tra tất cả 824 câu hỏi, không khớp. Câu hỏi KHÔNG PHẢI từ BrowseComp của OpenAI - dữ liệu bị khóa. Câu hỏi CÓ KHẢ NĂNG CAO NHẤT từ bộ đề GAIA."

Việc 18 lần chạy độc lập đều dẫn đến cùng một chiến lược cho thấy đây không phải hành vi ngẫu nhiên mà là một khả năng thật sự của mô hình.

Anthropic đã phải điều chỉnh lại kết quả đánh giá. Họ chạy lại 11 câu hỏi bị nghi ngờ với các biện pháp chặn, và chỉ 8 trong số đó được Claude trả lời đúng bằng cách tìm kiếm thông thường. Điểm số chính thức giảm từ 86,81% xuống 86,57%. Khi so sánh, nếu chỉ dùng một AI thay vì nhiều AI làm việc cùng lúc, tỷ lệ gian lận giảm từ 0,87% xuống chỉ còn 0,24% - chênh lệch 3,7 lần. Điều này cho thấy khi có nhiều AI làm việc song song, khả năng ít nhất một trong số chúng tìm ra lối tắt sẽ tăng lên đáng kể.

Nhưng sự việc này vẫn làm dấy lên nhiều câu hỏi đáng lo ngại. Nó cho thấy AI có thể đi những bước rất xa, thậm chí bất ngờ, để hoàn thành nhiệm vụ được giao. Khi được trang bị các công cụ mạnh như tìm kiếm web và khả năng viết code, AI có thể tìm ra những giải pháp mà con người không lường trước được.

Sự việc này cũng bộc lộ một thực tế đáng lo: các bài kiểm tra đánh giá AI đang dần mất đi độ tin cậy. Khi AI ngày càng thông minh, chúng có thể tìm cách "hack hệ thống" thay vì tuân theo luật.

Anthropic kêu gọi cộng đồng nghiên cứu cần coi việc bảo vệ tính toàn vẹn của các bài kiểm tra như một cuộc chiến liên tục, giống như an ninh mạng, chứ không phải chỉ lo lắng một lần khi thiết kế. Các bài kiểm tra tĩnh, được công khai trên internet, có thể ngày càng khó sử dụng để đánh giá AI một cách chính xác.