أصدرت DeepSeek أحدث بحثها "mHC: Manifold-Bound-Constrained Hyper-Connections" في بداية العام، وشارك المؤسس ليانغ وينفينغ أيضا. هذه مقالة تقنية سهلة الفهم حول البنية الأساسية، ويتم فهم أبرز النقاط الأساسية كما يلي:



أولا، تم تحسين استقرار تدريب النماذج الكبيرة بشكل كبير. أداء الاتصال المتبقي المطور (HC) السابق كان قويا بالفعل، لكن هناك نقطة ألم - عملية التدريب سهلة الانهيار، وmHC يحل هذه المشكلة من خلال آلية تقييد متعدد الأسطح، مما يسمح للنموذج بالحفاظ على استقرار التدريب في تحسين هيكلي أعمق.

ثانيا، هذا ليس مجرد تكديس أداء، بل إعادة تفكير من مستوى البنية التحتية. من خلال تقديم طوبولوجيا جديدة مع الاتصال الفائق، يتم تحسين قدرة التعميم ومتانة النموذج مع الحفاظ على الكفاءة الحسابية.

ببساطة، mHC تعني جعل النماذج الكبيرة تعمل بثبات وسرعة ودقة. لهذا له أهمية مرجعية معينة لاتجاه تحسين النماذج في القطاع بأكمله.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GraphGuruvip
· 01-07 03:51
الثبات + السرعة + الدقة، هذا المزيج فعلاً مريح للنظر

---

قيد التشكيل، أشعر أخيرًا أن هناك من ملأ حفرة HC

---

ليانغ وينفينغ يعود للأضواء، هذه الفكرة لها بعض المعنى

---

ليس مجرد تراكم الأداء، بل إعادة الهيكلة، هذا هو القوة الحقيقية

---

انتظر، هل يعني ذلك أن mHC هو "طالب مثالي" للنموذج الكبير؟

---

تحسين الهيكل الطوبولوجي، يبدو أن هناك شيء ما

---

التدريب بدون انهيار هو الطريق الصحيح، مشكلة HC السابقة أخيرًا تم حلها
شاهد النسخة الأصليةرد0
BrokenRugsvip
· 01-04 12:43
خطة متكاملة من الاستقرار والدقة والسرعة، DeepSeek هذه المرة حققت بالفعل خطوة مهمة

---

ما هو مبدأ قيد التشكيل، هل يمكنك شرحه بشكل مبسط للناس العاديين

---

مرة أخرى، هو ابتكار في الهيكلية، مع مراعاة الأداء، هذه المجموعة من الأساليب فعلاً جيدة

---

أخيرًا، وجد شخص ما حلاً لمشكلة انهيار التدريب، إعجاب

---

أشعر أن الطريق المتمثل في تراكم المعلمات أكثر موثوقية بكثير

---

هل لديك بيانات محددة حول تحسين القدرة على التعميم، أم أن الأمر يتطلب انتظار تفاصيل الورقة العلمية مرة أخرى

---

الأشياء التي شارك فيها ليانغ ونفنغ، نظرة سريعة عليها تظهر أنها ذات طابع خاص

---

إعادة التفكير من مستوى الهيكلية، هذا هو التقدم الحقيقي في التقنية

---

أشعر أن سقف الصناعة قد تم رفعه مرة أخرى إلى مستوى أعلى

---

التدريب المستقر هو حقًا مشكلة كبيرة، إذا تم حلها بشكل كامل سيكون أمرًا رائعًا
شاهد النسخة الأصليةرد0
OneBlockAtATimevip
· 01-04 06:54
أخيرًا قام شخص ما بتوضيح الأمر، فإن التدريب بدون انهيار هو الطريق الصحيح

هذه المرة، DeepSeek فعلاً فكر في مستوى الخوارزمية، وليس مجرد تراكم المعلمات

الورقة التي شارك فيها ليانغ وينفنغ مختلفة تمامًا، لقد تم كسر حاجز الاستقرار بعد فترة طويلة

أن يكون الأداء مستقرًا وسريعًا ودقيقًا، هذه هي الثلاث كلمات التي يجب على الصناعة أن تتأمل فيها

هذه هي الابتكار الحقيقي، وليس تلك الدعايات الفارغة والسطحية
شاهد النسخة الأصليةرد0
DoomCanistervip
· 01-04 06:54
الاستقرار أخيرًا هناك من يهتم به بجدية، كانت المجموعة السابقة فعلاً ضعيفة

الركض بثبات، بسرعة، ودقة، يبدو مغريًا جدًا، لكن هل يمكن حقًا التحمل؟

فكرة قيد التقييد المنحني مثيرة للاهتمام، أشعر أنني وجدت الطريق الصحيح

هل مرة أخرى ليانغ وينفنغ يشارك؟ هؤلاء الأشخاص في DeepSeek فعلاً يتنافسون بشدة

هل يمكن تطبيق هذا التحسين في التدريب الفعلي، أم سيظل مجرد نقاش نظري على الورق؟
شاهد النسخة الأصليةرد0
SerumSurfervip
· 01-04 06:54
يا إلهي، ليانغ وونغفينغ مرة أخرى يبدع، هل تم حل مشكلة الاستقرار أخيرًا؟

---

mHC يبدو قويًا حقًا، يجب أن أفهم بشكل جيد تقنية قيد الشكل

---

مرة أخرى DeepSeek، هذا الإيقاع سريع جدًا لدرجة لا تصدق

---

التدريب بدون انهيار هو الحاجة الحقيقية، الأداء القوي بدون فائدة

---

انتظر، كيف يتم تنفيذ بنية الطوبولوجيا الفائقة بشكل محدد؟

---

ثلاثة عناصر أساسية: الثبات، السرعة، الدقة، إذا تمكنوا حقًا من تحقيق ذلك، فذلك يستحق الثناء

---

مقالة أخرى، إنتاجية DeepSeek هذا العام قوية جدًا

---

كيف أعتقد أن قيد الشكل هو تقنية متقدمة...

---

ببساطة، هل تم حل الأخطاء غير المحلولة الآن؟
شاهد النسخة الأصليةرد0
FrogInTheWellvip
· 01-04 06:54
ليانغ وينفنغ يفعل أشياء جيدة هذه المرة، والثبات كان دائما نقطة ألم

---

إنها ابتكار في العمارة مرة أخرى، وDeepSeek تعمل بجد حقا

---

قيود المانيفولد؟ يبدو الأمر عميقا، لكن التأثير رائحته حقا

---

من المهم جدا ألا ينهار التدريب، وكانت HC بالفعل عرضة للمشاكل من قبل

---

هل ارتفعت التعميمات والمتانة؟ هذا مختلف جدا

---

اركض بثبات، اركض بسرعة، اركض بدقة، تلخص في جملة واحدة

---

هل يمكن استخدام هذا الشيء للفرق الصغيرة، أم أن المصانع الكبيرة فقط يمكنها استخدامه

---

الطوبولوجيا المترابطة الفائقة تبدو وكأنها تحل المشكلة الأساسية

---

يمكن تحسين كفاءة الحوسبة دون فقدان، وهذا أمر مبتكر حقا

---

DeepSeek سيظهر مرة أخرى، وباقي Home Must لن يستطيع اللحاق
شاهد النسخة الأصليةرد0
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.41Kعدد الحائزين:2
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.28Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.43Kعدد الحائزين:2
    1.03%
  • تثبيت