2026-01-04 06:24:03

DeepSeek на початку року опублікував новий документ «mHC: Manifold-Constrained Hyper-Connections», у створенні якого також брав участь засновник Лян Веньфен. Це глибока та доступна стаття про технології нижнього рівня архітектури, основні моменти яких можна зрозуміти так:

По-перше, стабільність тренування великих моделей значно покращилася. Попередній HC (оновлена версія залишкових з'єднань) дійсно був потужним, але мав один недолік — процес тренування легко руйнувався. mHC вирішує цю проблему за допомогою механізму обмеження на многовимірність, що дозволяє моделі зберігати стабільність під час глибшої структурної оптимізації.

По-друге, це не просто накопичення показників, а переосмислення з точки зору базової архітектури. Вводячи нову топологію супер-з'єднань, яка зберігає обчислювальну ефективність, модель покращує здатність до узагальнення та стійкість.

Простими словами, mHC — це дозволяє великим моделям бути стабільними, швидкими та точними одночасно. Це має певне значення для напрямку оптимізації моделей у всій галузі.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

22 лайків

Нагородити
22
6
Репост
Поділіться

Прокоментувати

Додати коментар

GraphGuru

· 01-07 03:51

Стабільність + швидкість + точність — ця комбінація дійсно приємна для ока

---

Що стосується обмежень маніфольду, здається, нарешті хтось заповнив цю прогалину у HC

---

Лян Веньфенг знову щось замишляє, ця ідея досить цікава

---

Не просто нагромадження продуктивності, а нова архітектура — ось справжня сила

---

Зачекайте, так кажучи, mHC — це "зразковий учень" великої моделі?

---

Що стосується оптимізації топологічної структури, виглядає досить перспективно

---

Головне — щоб тренування не зірвалося, і проблема HC нарешті вирішена