Agent cũng sẽ cạnh tranh và khen ngợi nhau trong kinh doanh, cuộc thi Hackathon AI của Circle thật sự quá bùng nổ.

Altruist and Adversary: Hành vi chủ động trong Cuộc thi Hackathon Moltbook USDC của Circle

Tác giả: Circle
Biên dịch: Peggy, BlockBeats

Nguồn:
Truyền tải lại: Mars Finance

Chú thích của biên tập viên: Khi các đại lý AI bắt đầu có khả năng thực hiện nhiệm vụ, gọi công cụ và tham gia hoạt động kinh tế, một câu hỏi mới xuất hiện: Trong môi trường thúc đẩy thực tế, chúng sẽ hành xử như thế nào?

Bài viết ghi lại một cuộc thử nghiệm của nhóm Circle. Họ tổ chức một cuộc thi Hackathon USDC trên nền tảng mạng xã hội Moltbook, chỉ cho phép các đại lý AI đăng bài. Các đại lý Openclaw tự nộp dự án, thảo luận và bỏ phiếu. Kết quả vừa thú vị, vừa phức tạp: các đại lý không chỉ tạo ra các dự án thực, tham gia thảo luận kỹ thuật, mà còn chơi trò chơi ở rìa luật lệ. Ví dụ, hiểu nhầm chỉ thị, bỏ qua định dạng, lôi kéo bình chọn lẫn nhau, thậm chí xuất hiện hành vi dường như “mưu mô”.

Cuộc thử nghiệm này cung cấp một cửa sổ quan sát hiếm hoi về “nền kinh tế đại lý”: khi AI vừa là người tham gia, vừa là người ra quyết định, hợp tác, cạnh tranh và hành vi chiến lược thường xuất hiện đồng thời. Ở mức độ nào đó, những hiện tượng này không khác gì cơ chế thị trường và bầu cử trong xã hội loài người.

Cuộc thử nghiệm nhanh chóng gây ra tranh luận rộng rãi trong cộng đồng. Nhiều người cho rằng đây là một xác nhận thú vị về khả năng tự quản của nền kinh tế đại lý. Một số bình luận cho rằng hệ thống đại lý vẫn cần có các giới hạn an toàn rõ ràng hơn để tránh các xu hướng “tự hợp lý hóa”; cũng có ý kiến cho rằng, khi các đại lý dần tham gia vào hoạt động kinh tế thực, các giới hạn thực sự trong tương lai có thể nằm ở hệ thống thanh toán và tuân thủ pháp lý. Như một bình luận đã nói: “Nền kinh tế đại lý rất mạnh mẽ, nhưng cũng cần có các giới hạn rõ ràng.”

Dưới đây là nội dung nguyên bản:

Hướng về Claw

Tại Circle, chúng tôi luôn thích tổ chức hackathon. Dù là tại các hội nghị lớn, hay khi ra mắt sản phẩm mới, chúng tôi đều muốn trao các công cụ tốt nhất cho các nhà phát triển — hoặc lần này, trao cho Claw.

Sau khi chứng kiến sự bùng nổ của Openclaw, một khung AI đại lý, chúng tôi quyết định tổ chức một cuộc thi chỉ dành cho các đại lý AI tham gia.

Phần mềm này nhanh chóng nổi tiếng, cho phép đại lý tự gửi email, gọi API, thậm chí điều khiển nhiệt độ phòng… Nhưng liệu chúng có thể tự nộp dự án không? Circle muốn dùng một thử nghiệm thực tế để kiểm tra xem các “AI thực sự làm việc được” này có thể làm gì.

Câu hỏi của chúng tôi rất đơn giản: Nếu quỹ thưởng là 30.000 USD, các đại lý Openclaw sẽ hành xử thế nào? Câu trả lời bất ngờ là “giống người”.

Chúng tôi tổ chức một cuộc thi Hackathon USDC trên cộng đồng con m/usdc của Moltbook. Moltbook là nền tảng mạng xã hội chỉ cho phép các đại lý AI đăng bài. Mục tiêu của chúng tôi là để các đại lý tự hoàn thành toàn bộ quy trình: nộp dự án, bỏ phiếu, cuối cùng chọn ra người thắng cuộc. Dù nhiều đại lý tuân thủ quy định, nhưng thử nghiệm cũng phát hiện ra một số đại lý phớt lờ quy tắc, tham gia bình chọn chéo, thậm chí cố gắng gửi token cho các đại lý khác.

Thiết kế quy tắc cho “hackers đại lý”

Các đại lý có năm ngày để nộp dự án của mình. Để giúp chúng hoàn thành nhiệm vụ, chúng tôi tạo ra một Skill “USDC Hackathon”, viết bằng Markdown, hướng dẫn cách Openclaw nộp dự án theo quy tắc. Các quy tắc này cũng được đăng trong bài thông báo ban đầu của cuộc thi:

Chọn một trong ba lĩnh vực: Thương mại Chủ động (Agentic Commerce), Hợp đồng Thông minh (Smart Contract) hoặc Kỹ năng (Skill).

Bình chọn cho năm dự án khác nhau, và phải thực hiện ít nhất một ngày sau khi cuộc thi bắt đầu.

Nộp dự án và bình chọn phải theo đúng định dạng quy định.

Việc đặt ra các quy tắc này chủ yếu dựa trên ba lý do: Thứ nhất, đảm bảo các đại lý sẽ thảo luận và đánh giá các dự án rộng rãi hơn; Thứ hai, quan sát xem các đại lý có thể tuân thủ chính xác các chỉ thị khi cần thực hiện nhiều bước hay không; Thứ ba, tránh tình trạng bế tắc giữa việc nộp dự án và bình chọn.

Chúng tôi đặc biệt muốn quan sát xem: các đại lý có kiểm tra thường xuyên các dự án mới trên Moltbook để bình chọn, ví dụ qua kỹ năng như Moltbook Heartbeat để làm mới định kỳ không.

Kết quả vừa vui vừa buồn. Các đại lý đã thảo luận về 204 dự án nộp, bỏ phiếu cho 1851 lượt, nhưng nhiều dự án không tuân thủ hướng dẫn. Thậm chí, một số đại lý còn thể hiện hành vi đối kháng tiềm năng, mang lại nhiều phát hiện thú vị.

Các dự án “ảo giác”

Dù đã cung cấp quy tắc rõ ràng và kỹ năng nộp dự án, phần lớn bài đăng vẫn không hoàn toàn theo đúng định dạng yêu cầu. Nhiều dự án chỉ ghi tiêu đề trong nội dung, nhưng không có nhãn “#USDCHackathon ProjectSubmission [TRACK]”.

Thậm chí, trong một trường hợp, một đại lý biết rõ cần viết các thông tin này nhưng lại không để vào tiêu đề.

Dù đã đáp ứng phần lớn các yêu cầu khác, một số đại lý vẫn “tưởng tượng” tạo ra các lĩnh vực hackathon mới. Điều này xảy ra ngay cả khi chúng đã được thông báo rõ ràng chỉ có thể chọn trong ba thể loại: Agentic Commerce, Smart Contract hoặc Skill.

Trong các trường hợp này, các đại lý thường tự tạo ra tên lĩnh vực phù hợp hơn dựa trên nội dung dự án. Có thể là cố gắng phân loại hợp lý hơn cho dự án của mình, hoặc chỉ đơn giản bỏ qua quy tắc đã đặt ra. Dù lý do là gì, vấn đề là các lĩnh vực này không tồn tại trong thực tế.

Khi cuộc thi tiến triển, số lượng các bài nộp không hợp lệ và bài viết lệch chủ đề ngày càng tăng. Theo quy định, các đại lý đăng các nội dung không hợp lệ này thực ra không có động lực rõ ràng. Có khả năng, một số đại lý gặp khó khăn trong việc hiểu hoặc thực thi chỉ thị.

Tuy nhiên, xét đến số lượng đáng kể các đại lý đã thành công trong việc nộp dự án đúng quy định, chúng tôi cho rằng các quy tắc này đã khá rõ ràng.

“Bầu cử” của các đại lý

Dù vậy, chúng tôi vẫn ghi nhận 9712 bình luận, trong đó nhiều bình luận tập trung thảo luận về chức năng kỹ thuật của dự án, nhưng không có bỏ phiếu. Hầu hết các bình luận này còn không tuân theo mẫu bình luận và tiêu chuẩn đánh giá đề xuất, nhưng các quy tắc này không bắt buộc trong kỹ năng (skill). Điều này cho thấy, các đại lý tham gia thảo luận trong hackathon không chỉ để đáp ứng yêu cầu thi đấu, mà còn thực sự đánh giá kỹ thuật và trao đổi.

Đến khi kết thúc cuộc thi, chúng tôi thống kê có 1352 lượt bỏ phiếu duy nhất cho các dự án hợp lệ, và 499 lượt cho các dự án không hợp lệ. Thú vị là, nhiều đại lý xếp hạng cao đã tuân thủ quy tắc khi nộp dự án, nhưng lại không bỏ phiếu cho năm dự án khác như yêu cầu.

Tình trạng này thậm chí xảy ra khi một số đại lý tự bỏ phiếu cho chính mình hoặc bỏ phiếu nhiều lần cho cùng một dự án. Điều này cho thấy họ hoàn toàn có khả năng kiểm tra lại nội dung trên Moltbook sau lần nộp ban đầu để bỏ phiếu — chỉ là không tuân thủ quy tắc đã đề ra.

Ngoài ra, một số đại lý còn bắt đầu quảng bá cho các dự án khác. Hành vi này xuất hiện cả trong phần bình luận của các dự án cạnh tranh, lẫn trong các bài đăng riêng biệt trên Moltbook. Thậm chí, một số đại lý còn thúc đẩy cơ chế “bình chọn chéo”: nếu bạn bỏ phiếu cho dự án của tôi, tôi sẽ bỏ phiếu cho dự án của bạn.

Dù quy tắc cuộc thi không cấm hành vi này, nhưng với khối lượng tương tác lớn giữa các đại lý trong các bài đăng này, hiện tượng này vẫn đáng cảnh báo.

Tiềm năng can thiệp của con người

Các bài đăng bình chọn chéo này có thể ngụ ý sự tham gia của con người hoặc thao túng từ bên ngoài. Chúng tôi thử dùng các mô hình chatbot để tạo ra các bình luận tương tự, kết quả cho thấy một số mô hình (ví dụ Claude Sonnet 4.6) từ chối trực tiếp tạo nội dung này; trong khi các mô hình khác sẽ cảnh báo khi tạo, nhắc nhở rằng hành vi này có thể vi phạm quy tắc thi đấu (ví dụ GPT-5.2 Thinking). Nếu có người điều khiển các tài khoản “đại lý” này hoặc hướng dẫn qua prompt, có thể giải thích vì sao trong thời gian diễn ra hackathon lại xuất hiện các bài đăng như vậy.

Dù Moltbook ban đầu thiết kế chỉ dành cho các đại lý AI (đăng ký qua xác thực X), các nhà nghiên cứu khác phát hiện việc giả danh vẫn có thể xảy ra. Chúng tôi cũng quan sát thấy một số ví dụ khả nghi về hoạt động của con người, như bình luận có lượt thích cao nhất chính là đoạn mở đầu của kịch bản phim “Bee Movie” (2007). Đoạn này là một copypasta nổi tiếng trên mạng, nội dung không liên quan gì đến thảo luận, rất có thể do con người đăng. Nếu hành vi này phổ biến trong thời gian diễn ra hackathon, các hành vi đối kháng như bình chọn chéo hoặc tự bỏ phiếu cũng có thể được lý giải từ đó.

Tương lai của tài chính đại lý

Dù cuộc thi này chỉ là một thử nghiệm, chúng tôi tin rằng đây sẽ là lần đầu tiên trong vô số hoạt động phát triển dành cho các đại lý. Từ kết quả, chúng tôi rút ra ba kết luận chính: Các đại lý có thể tạo ra các dự án thực dưới tác động của các phần thưởng tài chính.

Trong cuộc thi này, đã xuất hiện một số dự án thú vị, bạn có thể tìm hiểu thêm. Mặc dù không có đánh giá của con người, nhưng chất lượng các dự án gửi đến vẫn để lại ấn tượng sâu sắc. Điều này cho thấy, phát triển dựa trên AI đã có tiến bộ rõ rệt trong năm qua.

Các đại lý sẽ “hợp lý hóa” chỉ thị hơn là thực thi nghiêm ngặt

Trong quá trình tuân thủ quy tắc, các đại lý liên tục gặp vấn đề. Nhiều đại lý chỉ thực hiện một phần chỉ thị. Ngay cả các dự án chất lượng cao, nếu tuân thủ hoàn toàn quy tắc, có thể đã thắng cuộc. Điều này cho thấy, chỉ cung cấp các chỉ thị dạng đại lý là chưa đủ, quy tắc cần rõ ràng hơn, cùng với các cơ chế kiểm tra và phần thưởng phù hợp để đảm bảo thực thi.

Các đại lý vừa hợp tác, vừa cạnh tranh

Dù có thể có sự can thiệp của con người trong một số trường hợp, chúng tôi thực sự quan sát thấy các đại lý chủ động thảo luận về chiến lược liên kết trong hackathon. Các nhà tổ chức trong tương lai có thể quy định rõ trong quy tắc cấm hợp tác chéo để xem liệu có thể giảm thiểu hành vi này không. Nếu các đại lý vẫn không thể tuân thủ hoàn toàn chỉ thị, cần phải bổ sung các giới hạn an toàn (guardrails).

Công nghệ đại lý rất hấp dẫn, nhưng chúng ta cũng phải đảm bảo rằng nó không đi quá xa khỏi mục tiêu khám phá (exploration) và chuyển sang khai thác, thao túng (exploitation). Có người cho rằng, những hành vi này chỉ là kết quả tự nhiên của các đại lý mạnh hơn đánh bại các đại lý yếu hơn — cuối cùng, Xác thực của Claw từng tuyên bố: “Claw là luật (the Claw is the Law).”

Vấn đề thực sự là: Chúng ta sẵn sàng chấp nhận mức độ nào của ý tưởng này? Cần có hàng rào bảo vệ ra sao? Và làm thế nào để cân bằng giữa khả năng lớn của các đại lý và những rủi ro không chắc chắn đi kèm?

Tại Circle, chúng tôi đang xây dựng hệ thống để đảm bảo an toàn, và hy vọng các bạn cũng vậy.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim