AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

عرض نتائج التقييم ↓GitHub · مجموعة الأسئلة & قواعد التقييم

٦٦+

تقييم المهمة

الأبعاد الأساسية

٩+

مشارك في التقييم Agent

شهري

تحديث شهري

الأبعاد

أبعاد التقييم

تغطية مستخدمي Crypto عبر جميع الروابط - من العمليات الأساسية في CEX إلى التحقيقات المعقدة على السلسلة، كل ذلك مبني على سيناريوهات حقيقية.

10 المهام

CEX

طلب السوق الفوري، فتح وإغلاق العقود، استعلام عن إدارة الأموال، استراتيجية الشبكة، تحويل الحسابات وتحليل المجموعات.

10 المهام

DEX

تبادل على السلسلة، مقارنة أسعار الجسور عبر السلاسل، التحكم في الانزلاق، تحسين التوجيه متعدد الخطوات وتقييم مخاطر العقود.

10 المهام

محفظة

تحويل متعدد السلاسل، تقدير احتياطي الغاز، التحقق من تنسيق العنوان، منع التحويلات الخاطئة والتحويلات المشروطة.

12 المهام

تحليل السوق

سوق المال المباشر، تحليل تقني لمؤشر القوة النسبية / خطوط K، تقييم العلاقة بين الحجم والسعر، مقارنة بين عدة عملات ومقارنة التقلبات.

12 المهام

بحث المشروع

تحليل اقتصاديات الرموز، تحديد دورات السرد، الكشف عن عمليات الاحتيال، مقارنة المنتجات البحثية والتقارير.

12 المهام

تتبع على السلسلة

تحليل صورة العنوان والأرباح والخسائر، تتبع الحيتان، إشارات Smart Money، مراقبة أمان البروتوكولات.

العمليات الأساسية

أوامر بسيطة، نية واضحة. مثل الاستعلام عن الرصيد، عرض أسعار السوق، وإجراء طلبات بسيطة.

عمليات الشروط

يتضمن فحصًا مسبقًا أو فروع استثنائية. مثل حظر الرصيد غير الكافي، استكمال المعلمات، وتحديد مخاطر السلاسل الخاطئة.

مهام مركبة

خطوات متعددة، وقيود متعددة، تحتاج إلى استدلال وتوازن. مثل المسار الأمثل عبر السلاسل، والتحويل الكامل مع الاحتفاظ بـ Gas.

نتائج مارس 2026

تصنيف التقييمات

تم الحصول على درجة الوزن من خلال دمج 6 أبعاد. جميع التقييمات تستخدم آلية توافق نموذجين، مدعومة بالتحكيم البشري.

#	وكيل	نوع	إجمالي النقاط	CEX	DEX	محفظة	تحليل السوق	بحث المشروع	تتبع على السلسلة
1	GateAI Agent	الذكاء الاصطناعي العام	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（مثبت Gate for AI）	الذكاء الاصطناعي العام	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（مثبت Gate for AI）	الذكاء الاصطناعي العام	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	كريبتو AI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（مثبت Gate for AI）	الذكاء الاصطناعي العام	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	كريبتو AI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	الذكاء الاصطناعي العام	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	كريبتو AI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	الذكاء الاصطناعي العام	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（مثبت Gate for AI）82.8

Codex Agent（مثبت Gate for AI）81.2

حقق Gate AI Agent المركز الأول في التقييم الشامل لهذا الاختبار. كونه وكيلًا أصليًا متكاملًا في البورصة، فقد احتل المركز الأول في ثلاثة أبعاد رئيسية: تداول CEX، تداول DEX، وتحليل السوق. شمل هذا التقييم 9 وكلاء، حيث تغطي الموضوعات 6 مشاهد رئيسية تشمل تداول CEX، تداول DEX، عمليات المحفظة، تحليل السوق، التحقيقات على السلسلة، وبحوث المشاريع، وتم تقييمها من خلال آلية توافق نموذجين مع مراجعة بشرية. أداء Gate AI Agent وفقًا لهذه المعايير هو تحقق كامل لقدراته الأصلية في Web3.

إطار التقييم

منهجية التقييم

يتم تقييم كل سؤال بشكل مستقل وفقًا لـ 2-3 أبعاد تقييم، باستخدام تدقيق توافق النموذجين، حيث تكون جميع المعايير والأوزان معلنة بالكامل.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

تحديد المخاطر ووقفها

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

تلبية جميع معايير التقييم بالكامل

PARTIAL

0.6

الاتجاه صحيح، لكن التنفيذ غير مكتمل.

FAIL

0.0

خطأ أو اختلاق أو وجود مخاطر أمنية

مراجعة توافق النموذجين المزدوجين

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Weighted Composite Scoring

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Participating Agent Categories

Gate AI Agent

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

وكيل الذكاء الاصطناعي العام

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

وكيل الذكاء الاصطناعي التابع لجهة خارجية

Industry's other Crypto-specific AI Agents

عرض مجموعة الأسئلة الكاملة وقواعد التقييم →

تفاصيل تقييم الموضوع

تفاصيل تقييم كل سؤال

انقر على أي عنوان لعرض درجات كل وكيل وأبعاد التقييم.

CEX

DEX

محفظة

تحليل السوق

بحث المشروع

تتبع على السلسلة

cex_001L1ساعدني في معرفة كم تبقى لدي من USDT في حسابي الفوري.100▾

ساعدني في معرفة كم تبقى لدي من USDT في حسابي الفوري.

GateAI Agent100

Claude Agent（مثبت Gate for AI）95

Codex Agent（مثبت Gate for AI）82.5

AskSurf Agent36.5

Manus（مثبت Gate for AI）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

أبعاد التقييم

فهم نية الحسابهل تم التعرف عليه بشكل صحيح كاستعلام عن رصيد حساب التداول الفوري، وليس إجمالي الأصول أو رصيد العقود أو إيداع

دقة استعلام الرصيدهل يتم إرجاع الرصيد المتاح من USDT بشكل واضح، مع تمييز بين الرصيد المتاح/المجمد؟

معالجة الأخطاء والتوضيحعند مواجهة مشاكل مثل عدم تسجيل الدخول أو انتهاء صلاحية التفويض، هل يتم تقديم سبب واضح وإرشادات للخطوة التالية؟

cex_002L1شراء SOL بسعر السوق بمبلغ 10 دولار أمريكي.89▾

شراء SOL بسعر السوق بمبلغ 10 دولار أمريكي.

GateAI Agent89

Claude Agent（مثبت Gate for AI）72.5

Codex Agent（مثبت Gate for AI）87.5

AskSurf Agent77.5

Manus（مثبت Gate for AI）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

أبعاد التقييم

دقة تحليل الأوامرهل تم فهم 10U كمبلغ USDT، وليس كعدد 10 من SOL؟

تنفيذ صفقة كاملةهل يتم إرجاع نتيجة الصفقة، خطوات التأكيد أو توضيح حالة الطلب بوضوح

تحديد المخاطر والحظرعند نقص الرصيد أو قيود الأذونات، هل يتم حظر المستخدم بدقة وإخباره بالخطوة التالية؟

cex_003L1ما هو معدل العائد السنوي لمنتجات الاستثمار في USDT؟95▾

ما هو معدل العائد السنوي لمنتجات الاستثمار في USDT؟

GateAI Agent95

Claude Agent（مثبت Gate for AI）87.5

Codex Agent（مثبت Gate for AI）91

AskSurf Agent77.5

Manus（مثبت Gate for AI）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

أبعاد التقييم

تحديد نطاق المنتجهل تركز على منتجات إدارة الأموال / كسب العملات من نوع USDT، بدلاً من التوجه نحو التداول أو الإقراض؟

نتيجة الفعاليةهل تعيد على الأقل نوعًا واحدًا من منتجات الاستثمار في USDT ومعدل العائد السنوي الخاص بها

شرح العائدات والقيودهل تم توضيح خصائص تغير العائد الديناميكي أو قيود المؤهلات / المناطق؟

cex_004L1ساعدني في العثور على بائع يدعم Alipay لشراء 5000 USDT.100▾

ساعدني في العثور على بائع يدعم Alipay لشراء 5000 USDT.

GateAI Agent100

Claude Agent（مثبت Gate for AI）47.5

Codex Agent（مثبت Gate for AI）60

AskSurf Agent77.5

Manus（مثبت Gate for AI）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

أبعاد التقييم

P2P مشهد التعرفهل تم التعرف عليه بشكل صحيح كشراء عملة قانونية P2P، استخراج ثلاثة معلمات هي: Alipay، 5000 يوان، USDT.

جودة نتائج المطابقةهل يتم إرجاع قائمة الإعلانات المتوافقة أو خطة شراء قابلة للتنفيذ

حظر وشرح المخاطرهل يتم تقديم أسباب واضحة وإرشادات للخطوات التالية عند عدم وجود إعلانات أو عدم التأهل؟

cex_005L2بيع ETH على المكشوف90▾

بيع ETH على المكشوف

GateAI Agent90

Claude Agent（مثبت Gate for AI）92.5

Codex Agent（مثبت Gate for AI）82.5

AskSurf Agent36.5

Manus（مثبت Gate for AI）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

أبعاد التقييم

فهم اتجاه التداولهل تم التعرف بشكل صحيح على بيع على المكشوف ETH كعقد دائم وليس بيع في السوق الفوري

معالجة المعلمات والخياراتهل يتم الاستفسار بنشاط عند وجود معلمات مفقودة، وهل تتضمن الخطة النهائية الاتجاه/الرافعة المالية/الهامش؟

تنفيذ الحلقة المغلقة والحظربعد توفر المعلمات بالكامل، هل يمكن تقديم خطة قابلة للتنفيذ، وهل الحظر دقيق في حالة القيود الزمنية؟

cex_006L2ساعدني في تصفية صفقة الشراء على BTC.72.5▾

ساعدني في تصفية صفقة الشراء على BTC.

GateAI Agent72.5

Claude Agent（مثبت Gate for AI）96

Codex Agent（مثبت Gate for AI）95

AskSurf Agent52.5

Manus（مثبت Gate for AI）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

أبعاد التقييم

تحديد دلالة إغلاق الصفقةهل تم التعرف عليه بشكل صحيح كإغلاق طويل / بيع، وليس كفتح صفقة بيع على المكشوف؟

تحقق من المراكز والنتائجهل يجب أولاً التحقق من مركز شراء BTC ثم تقديم نتيجة إغلاق الصفقة أو تأكيد الخطوة التالية؟

المخاطر ومعالجة الاستثناءاتفي حالات عدم وجود مراكز أو نقص في الأذونات، هل يتم تقديم توضيح دقيق؟

cex_007L2قم بتحويل 10 USDT من حساب التداول الفوري إلى حساب العقود الدائمة.90▾

قم بتحويل 10 USDT من حساب التداول الفوري إلى حساب العقود الدائمة.

GateAI Agent90

Claude Agent（مثبت Gate for AI）94

Codex Agent（مثبت Gate for AI）92.5

AskSurf Agent71.5

Manus（مثبت Gate for AI）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

أبعاد التقييم

صحة مسار التحويلهل تم التعرف عليه بشكل صحيح كتحويل داخلي، الاتجاه من حساب التداول الفوري إلى حساب العقود الآجلة الدائمة

تنفيذ أو حظر النتائجتقديم وصف الحالة عند نجاح التحويل، هل يتم الحظر بدقة عند عدم كفاية الرصيد

وضوح المعلوماتهل تم التعبير عن اتجاه الحساب، المبلغ، وأسباب الاستثناء بوضوح؟

cex_008L2عندما انخفضت ETH إلى 2500، اشتريت 100 دولار.75▾

عندما انخفضت ETH إلى 2500، اشتريت 100 دولار.

GateAI Agent75

Claude Agent（مثبت Gate for AI）62.5

Codex Agent（مثبت Gate for AI）70

AskSurf Agent62.5

Manus（مثبت Gate for AI）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

أبعاد التقييم

نوع الطلب التعرفهل تم التعرف عليه كأمر شراء محدد بسعر محدد بدلاً من أمر السوق الذي يتم تنفيذه على الفور؟

صحة المعلماتهل المعلمات الأساسية الثلاثة، نوع العملة ETH، سعر الهدف 2500، والمبلغ 100 دولار، دقيقة جميعها؟

تنفيذ الحلقة المغلقةهل تم تقديم حالة التأكيد/التنفيذ، وهل يتم حظر القيود بدقة؟

cex_009L3ساعدني في تحليل ما إذا كان حسابي الإجمالي في آخر 30 يومًا قد تفوق على BTC، وألقِ نظرة على معدل الفوز ونسبة الربح والخسارة لعقود USDT الدائمة.90▾

ساعدني في تحليل ما إذا كان حسابي الإجمالي في آخر 30 يومًا قد تفوق على BTC، وألقِ نظرة على معدل الفوز ونسبة الربح والخسارة لعقود USDT الدائمة.

GateAI Agent90

Claude Agent（مثبت Gate for AI）85

Codex Agent（مثبت Gate for AI）77.5

AskSurf Agent77.5

Manus（مثبت Gate for AI）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

أبعاد التقييم

تحليل النطاق يغطيهل يغطي في نفس الوقت حساب الأداء المتفوق على BTC وتحليل سلوك التداول الدائم في بعدين

نتيجة ودقة المؤشراتهل تم تقديم استنتاج حول ما إذا كان قد تفوق على BTC، بالإضافة إلى بيانات نسبة الفوز ونسبة الربح والخسارة.

قطر ومعالجة الاستثناءاتهل من الواضح التمييز بين نوعين من معايير التحليل، وهل يتم توضيح القيود بشكل منفصل عند عدم وجود بيانات؟

cex_010L3استخدم 100 USDT لفتح شبكة BTC الفورية95▾

استخدم 100 USDT لفتح شبكة BTC الفورية

GateAI Agent95

Claude Agent（مثبت Gate for AI）60

Codex Agent（مثبت Gate for AI）67.5

AskSurf Agent77.5

Manus（مثبت Gate for AI）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

أبعاد التقييم

نوع الاستراتيجية التعرفهل تم التعرف عليها بشكل صحيح كشبكة BTC الفورية، وليس شبكة العقود أو استراتيجيات كمية أخرى

صحة معلمات الخطةهل تعكس بدقة العناصر الثلاثة: BTC، 100 USDT، شبكة التداول الفوري

إيضاح الحظر والقيودعند عدم كفاية الرصيد أو عدم توفر الاستراتيجية، هل يتم تقديم سبب واضح لذلك؟

الأسئلة الشائعة

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

كيف يتم تقييم Benchmark؟+

تستند التقييمات إلى أداء وكيل الذكاء الاصطناعي في أكثر من 66 مهمة حقيقية، مع الأخذ في الاعتبار عدة مؤشرات مثل مدى إتمام المهام، الدقة وكفاءة التنفيذ، لضمان أن تكون نتائج التقييم موضوعية وعادلة وقابلة للمقارنة.

كم مرة يتم تحديث بيانات التقييم؟+

تحديث شهري. مع ترقية وتحديث وكلاء مختلفين وانضمام وكلاء جدد، سنستمر في إجراء التقييمات وتحديث التصنيفات. كما سيتم توسيع قاعدة الأسئلة وفقًا لتطور الصناعة والمشاهد الجديدة.

هل التقييم موضوعي؟ هل مشاركة Gate AI في التقييم عادلة؟+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

كيف يتم تصنيف صعوبة مهام التقييم؟+

تنقسم إلى ثلاثة مستويات - L1 (العمليات الأساسية: تعليمات خطوة بخطوة، نية واضحة)، L2 (العمليات الشرطية: تشمل الفحوصات المسبقة أو الفروع الاستثنائية)، L3 (المهام المركبة: متعددة الخطوات، متعددة القيود، تتطلب الاستدلال والموازنة). كلما زادت الصعوبة، زادت قدرة الوكيل على إظهار مهارات اتخاذ القرار الشاملة في سيناريوهات العملات المشفرة الحقيقية.

الفرق الرئيسي بين وكيل الذكاء الاصطناعي العام ووكيل مخصص للعملات المشفرة هو في نطاق الاستخدام والوظائف. وكيل الذكاء الاصطناعي العام مصمم للتعامل مع مجموعة واسعة من المهام والمجالات، بينما وكيل العملات المشفرة مخصص لتحليل البيانات المتعلقة بالعملات المشفرة، تنفيذ الصفقات، وإدارة المحافظ.+

يظهر وكيل الذكاء الاصطناعي العام (مثل Claude وChatGPT) أداءً قريبًا من الوكلاء المتخصصين في مهام استعلام المعلومات (تحليل السوق، بحث المشاريع)، ولكن هناك فجوة واضحة في المهام التي تتطلب تنفيذًا حقيقيًا (إجراء الصفقات، التحويلات على السلسلة، تقدير الغاز وقطع السلاسل الخاطئة). هذه هي أيضًا السبب الرئيسي وراء الحاجة إلى بنية تحتية خاصة لوكلاء الذكاء الاصطناعي في مجال التشفير.