استكشاف تدريب الذكاء الاصطناعي اللامركزي: من Prime Intellect إلى الابتكارات التكنولوجية في Pluralis

الكأس المقدسة للذكاء الاصطناعي في العملات الرقمية: استكشاف الحدود للتدريب اللامركزي

في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعتبر تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية تطبيقه الفعلية. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قدرة حسابية كبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج الهيكل، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم مناقشته في هذه المقالة.

كأس القدر لذكاء التشفير: استكشاف متقدم للتدريب اللامركزي

يعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة في مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرجات، وآليات تحمل الأخطاء تعمل بكفاءة مثلى، مما يجعلها مناسبة جدًا لتدريب نماذج ضخمة مثل GPT وGemini، مع مزايا الكفاءة العالية، وقابلية التحكم في الموارد، لكنها في نفس الوقت تعاني من مشكلات احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.

التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، و جوهره هو تقسيم مهمة تدريب النموذج ثم توزيعها على عدة أجهزة لتنفيذها بشكل متعاون، من أجل تجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من أنه يمتلك خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والتزامن، وغالبًا ما يعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل التوصيل السريع NVLink، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:

  • التوازي البياني: كل عقدة تدرب معلمات بيانات مختلفة ويجب أن تتطابق أوزان النموذج
  • التوازي النموذجي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسيع قوية
  • أنابيب متوازية: تنفيذ متسلسل على مراحل، وزيادة معدل الإنتاج
  • التوازي المتجه: تقسيم دقيق لحساب المصفوفة، لزيادة حجم التوازي

التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مشابهًا لتوجيه نفس المدير عن بُعد لعدة "مكاتب" للموظفين للتعاون في إتمام المهام. حاليًا، يتم تدريب تقريبًا جميع النماذج الكبيرة الرائجة بهذه الطريقة.

كأس القدر للذكاء الاصطناعي: استكشاف الحدود لتدريب اللامركزية

اللامركزية التدريبية تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل ميزتها الأساسية في: عدة نقاط غير موثوقة تتعاون في إكمال مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتستخدم آليات تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:

  • صعوبة تنسيق الأجهزة المتنوعة وتقسيم المهام: صعوبة تنسيق الأجهزة المتنوعة وكفاءة منخفضة في تقسيم المهام
  • عائق كفاءة الاتصال: الاتصال بالشبكة غير مستقر، وعائق تزامن التدرج واضح
  • نقص التنفيذ الموثوق: عدم وجود بيئة تنفيذ موثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك حقًا في الحساب
  • عدم وجود تنسيق موحد: لا يوجد جهاز تحكم مركزي، توزيع المهام، وآلية التراجع عن الاستثناءات معقدة

يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين حول العالم، يساهمون كل واحد منهم بقوة حسابية لتدريب النموذج بشكل متعاون، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، يتعلق بالهندسة المعمارية للنظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، ولكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز للنزاهة + نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.

تعتبر التعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا وتجميع معلمات النموذج بشكل مركزي، مما يجعله مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، وفي الوقت نفسه يتمتع بمزايا توزيع البيانات للتدريب اللامركزي، ولكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة بالكامل ومقاومة للرقابة. يمكن اعتباره بمثابة حل "لامركزي محكوم" في سيناريوهات الامتثال للخصوصية، حيث تكون مهام التدريب وبنية الثقة وآلية الاتصال متوسطة نسبيًا، مما يجعله أكثر ملاءمة كنموذج نشر انتقالي في الصناعة.

اللامركزية تدريب الحدود، الفرص والطرق الواقعية

من حيث نماذج التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو متطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته لا يناسب الإنجاز بكفاءة بين العقد المتباينة والموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، زمن انتقال منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في الشبكات المفتوحة؛ بينما المهام التي تتطلب خصوصية البيانات وقيود السيادة تقيدها الالتزامات القانونية والأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما المهام التي تفتقر إلى حوافز التعاون تفتقر إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.

لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، يظهر التدريب اللامركزي آفاق تطبيق واضحة في أنواع المهام التي تتميز بخفة الهيكل، وسهولة التوازي، والتحفيز. بما في ذلك على سبيل المثال لا الحصر: التعديل الدقيق باستخدام LoRA، مهام التدريب اللاحقة المصممة لمحاذاة السلوك، مهام تدريب وتوسيم البيانات عبر الحشود، تدريب النماذج الأساسية الصغيرة القابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. هذه المهام تتمتع عمومًا بخصائص التوازي العالي، والربط المنخفض، والتحمل لقدرات حسابية غير متجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر شبكات P2P، وبروتوكول Swarm، والمُحسنات الموزعة.

كأس المقدس للذكاء الاصطناعي: استكشاف الحدود للتدريب اللامركزي

اللامركزية تدريب الكلاسيكيات تحليل المشاريع

حاليًا، تشمل المشاريع المميزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما المسارات التنفيذية لـ Gensyn وFlock.io واضحة نسبيًا، حيث يمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة بالتتابع، وستبحث أيضًا في الاختلافات والعلاقات التكميلية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.

Prime Intellect: رائد الشبكة المتعاونة للتعلم المعزز القابل للتحقق من المسار التدريبي

تسعى Prime Intellect لبناء شبكة تدريب AI لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect في إنشاء نظام تدريب AI لامركزي قابل للتحقق، مفتوح، مع آلية تحفيز كاملة من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST.

PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف رئيسي للتكيف، ويقوم بفصل هيكلي بين عمليات التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. مقارنةً بعمليات التعلم الخاضع للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتنفيذ التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة والتطور الاستراتيجي.

TOPLOC هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "سلسلة المراقبة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنه يحول لأول مرة سلوك المسارات خلال عملية التدريب إلى كائنات قابلة للتحقق، مما يعد ابتكاراً رئيسياً لتحقيق توزيع مكافآت التدريب بدون ثقة، ويوفر مساراً قابلاً للتطبيق لبناء شبكة تدريب تعاونية غير مركزية قابلة للتدقيق والتحفيز.

SHARDCAST هو بروتوكول لنشر وتجميع الأوزان مصمم بواسطة Prime Intellect، مُحسّن خصيصًا للبيئات الشبكية الحقيقية ذات الحالة المتغيرة للعُقد، والتي تعاني من القيود على النطاق الترددي والتأخير. إنه يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عُقد بتقديم تحديثات جزئية باستمرار في حالات عدم التزامن، مما يحقق التقارب التدريجي للأوزان وتطور الإصدارات المتعددة. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يُحسِّن SHARDCAST بشكل ملحوظ من قابلية التوسع وقدرة التحمل للتدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق الأوزان المستقر والتدريب المستمر.

OpenDiLoCo هو إطار تحسين الاتصالات الذي طوره فريق Prime Intellect استنادًا إلى مفهوم DiLoCo المقدم من DeepMind، وهو تطبيق مستقل ومفتوح المصدر، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي، مثل قيود النطاق الترددي، وتباين الأجهزة، وعدم استقرار العقد. تعتمد هيكله على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإتمام التدريب التعاوني للنموذج. بالجمع بين التحديث غير المتزامن وآلية تحمل الأخطاء، يسمح OpenDiLoCo حتى لوحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية بالمشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني على مستوى العالم، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.

PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل عنق الزجاجة في التكيف الذي تواجهه مكتبات الاتصالات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الطوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة، واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسومات الاستهلاكية والعقد غير المستقرة، وهو مكون أساسي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عزز بشكل ملحوظ من تحمل عرض النطاق الترددي لشبكة التدريب وتوافق الأجهزة، مما يوفر أساس الاتصالات لتمكين بناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.

بني Prime Intellect شبكة تدريب قابلة للتحقق، بدون إذن، وتمتلك آلية حوافز اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على مساهماته الحقيقية. يعمل البروتوكول استنادًا إلى ثلاث فئات من الأدوار الأساسية:

  • مُطلق المهمة: تعريف بيئة التدريب، النموذج الأولي، دالة المكافأة ومعايير التحقق
  • عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
  • عقد التحقق: استخدم آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات

تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "السلوك التدريبي الحقيقي".

كأس القدر للذكاء الاصطناعي للعملات الرقمية: استكشاف متقدم للتدريب اللامركزي

أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه من خلال تعاون غير متزامن وغير موثوق به بين العقد اللامركزية، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة GPU متباينة موزعة على ثلاث قارات، باستخدام بنية غير متزامنة تمامًا، واستغرق التدريب أكثر من 400 ساعة، مما أظهر جدوى واستقرار الشبكة التعاونية غير المتزامنة. لا يمثل هذا النموذج فقط اختراقًا في الأداء، ولكنه أيضًا التنفيذ النظامي الأول لنموذج "التدريب هو التوافق" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 بروتوكولات أساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يرمز إلى تحقيق أول انفتاح في عملية التدريب وشهادة ودوائر الحوافز الاقتصادية لشبكة التدريب اللامركزية.

فيما يتعلق بالأداء، فإن INTELLECT-2 يعتمد على QwQ-32B وتم تدريبه باستخدام RL بشكل خاص في الشفرة والرياضيات، مما يجعله في طليعة النماذج المفتوحة المصدر لتعديل RL الحالية. على الرغم من أنه لم يتجاوز بعد نماذج مثل GPT-4 أو Gemini، إلا أن معناه الحقيقي يكمن في: أنه أول نموذج لامركزي يمكن إعادة إنتاجه والتحقق منه وتدقيقه بالكامل في جميع أنحاء العالم. لم يقتصر Prime Intellect على فتح مصدر النموذج فحسب، بل الأهم من ذلك هو أنه فتح مصدر عملية التدريب نفسها - بيانات التدريب، مسارات تحديث الاستراتيجيات، عمليات التحقق والمنطق التجميعي كلها شفافة وقابلة للتحقق، مما يبني نموذجًا لشبكة تدريب لامركزية يمكن للجميع المشاركة فيها، والتعاون الموثوق، ومشاركة الأرباح.

Pluralis: نموذج التدريب المتزامن بين النماذج غير المتزامنة وضغط الهيكل

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • مشاركة
تعليق
0/400
OptionWhisperervip
· 07-17 11:40
قلت سابقًا، قوة الحوسبة هي العقبة.
شاهد النسخة الأصليةرد0
TokenCreatorOPvip
· 07-16 08:09
رسوم الدراسة التصفية القسرية قوة الحوسبة لا يمكن التعامل معها
شاهد النسخة الأصليةرد0
SybilSlayervip
· 07-14 14:35
لا تزال تتداول المفاهيم، أرجوك
شاهد النسخة الأصليةرد0
LiquidationAlertvip
· 07-14 14:35
هذا يبدو أنه انتهى
شاهد النسخة الأصليةرد0
PositionPhobiavip
· 07-14 14:21
لعب فقط لا أفهم
شاهد النسخة الأصليةرد0
GhostAddressHuntervip
· 07-14 14:07
قوة الحوسبة المركزية حقًا كبيرة!
شاهد النسخة الأصليةرد0
  • تثبيت