DeepSeek на початку року опублікував новий документ «mHC: Manifold-Constrained Hyper-Connections», у створенні якого також брав участь засновник Лян Веньфен. Це глибока та доступна стаття про технології нижнього рівня архітектури, основні моменти яких можна зрозуміти так:



По-перше, стабільність тренування великих моделей значно покращилася. Попередній HC (оновлена версія залишкових з'єднань) дійсно був потужним, але мав один недолік — процес тренування легко руйнувався. mHC вирішує цю проблему за допомогою механізму обмеження на многовимірність, що дозволяє моделі зберігати стабільність під час глибшої структурної оптимізації.

По-друге, це не просто накопичення показників, а переосмислення з точки зору базової архітектури. Вводячи нову топологію супер-з'єднань, яка зберігає обчислювальну ефективність, модель покращує здатність до узагальнення та стійкість.

Простими словами, mHC — це дозволяє великим моделям бути стабільними, швидкими та точними одночасно. Це має певне значення для напрямку оптимізації моделей у всій галузі.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GraphGuruvip
· 01-07 03:51
Стабільність + швидкість + точність — ця комбінація дійсно приємна для ока

---

Що стосується обмежень маніфольду, здається, нарешті хтось заповнив цю прогалину у HC

---

Лян Веньфенг знову щось замишляє, ця ідея досить цікава

---

Не просто нагромадження продуктивності, а нова архітектура — ось справжня сила

---

Зачекайте, так кажучи, mHC — це "зразковий учень" великої моделі?

---

Що стосується оптимізації топологічної структури, виглядає досить перспективно

---

Головне — щоб тренування не зірвалося, і проблема HC нарешті вирішена
Переглянути оригіналвідповісти на0
BrokenRugsvip
· 01-04 12:43
Рішення, що поєднує стабільність, точність і швидкість, DeepSeek цього разу справді досягло межі

---

Який принцип лежить в основі обмежень маніфольду, можете пояснити простим людям?

---

Знову інновації в архітектурі та баланс у продуктивності — ця комбінація дійсно хороша

---

Нарешті хтось взявся за проблему краху тренування, лайк

---

Відчувається, що цей шлях з накопиченням параметрів набагато надійніший

---

Чи є конкретні дані щодо підвищення здатності до узагальнення, чи знову чекати деталей статті?

---

Що стосується участі Лян Веньфена, навіть швидкий огляд дає відчуття справжності

---

Переглянути з архітектурної точки зору — ось справжній прогрес у технологіях

---

Відчувається, що межа галузі знову піднялася на новий рівень

---

Стабільне тренування справді велика проблема, було б круто, якби це вдалося вирішити кардинально
Переглянути оригіналвідповісти на0
OneBlockAtATimevip
· 01-04 06:54
Нарешті хтось пояснив цю справу, тренування без збоїв — це справжній шлях

DeepSeek цього разу дійсно замислився на рівні алгоритмів, а не просто накопиченням параметрів

Стаття, у якій брав участь Лян Веньфен, відрізняється, стабільність — нарешті подолана після такої довгої боротьби

Зі стабільністю, швидкістю та точністю — саме ці три слова, вся індустрія має задуматися

Це справжнє новаторство, а не ті порожні рекламні слова
Переглянути оригіналвідповісти на0
DoomCanistervip
· 01-04 06:54
Стабільність нарешті почали серйозно займатися, раніше такий підхід дійсно був слабким

Бігти стабільно, швидко і точно — звучить досить привабливо, але чи справді зможе триматися?

Ідея з обмеженнями на многовимірні простори цікава, здається, знайшли правильний шлях

Знову залучений Лян Веньфен? Команда DeepSeek справді дуже наполеглива

До речі, чи зможе цей покращений підхід бути застосований у реальному тренуванні, а не залишитися на папері?
Переглянути оригіналвідповісти на0
SerumSurfervip
· 01-04 06:54
Лян Веньфен цього разу знову живий, і проблема стабільності нарешті вирішена?

---

mHC виглядає дуже безжально, і я маю зрозуміти трюк з обмеженням у многообразі

---

Знову DeepSeek, цей ритм справді неймовірно швидкий

---

Тренування справді потрібне, незалежно від того, наскільки сильні результати

---

Зачекайте, а як саме реалізується топологія гіперзв'язку?

---

Стабільно, швидко і майже трійця — якщо ви справді можете це зробити, варто похвалитися

---

Ще одна стаття — DeepSeek цього року — досить жорстка публікація

---

Як обмеження в колекторах відчуваються як чорна технологія...

---

Говорячи прямо, невирішена помилка тепер вирішена

---

Чи корисна ця штука для маленьких моделей, чи це просто хороша новина для великих?
Переглянути оригіналвідповісти на0
FrogInTheWellvip
· 01-04 06:54
梁文锋 цим разом дійсно займається справами, стабільність завжди була болючою точкою

---

Знову архітектурні інновації, DeepSeek дійсно вкладає зусилля

---

Обмеження маніфольду? Звучить складно, але ефект дійсно класний

---

Ключовим є те, що тренування не зривається, раніше HC дійсно був схильний до проблем

---

Загальна здатність до узагальнення та стійкість покращилися? Тоді це дійсно щось інше

---

Робота стабільна, швидка та точна, коротко кажучи — це геніально

---

Чи можна цю технологію застосувати невеликим командам, чи вона підходить лише великим корпораціям

---

Відчуття, що топологія суперзв’язків справді вирішує базові проблеми

---

Обчислювальна ефективність не знижується, а ще й підвищує продуктивність, ось справжня інновація

---

DeepSeek знову збирається підняти хвилю, інші компанії мають йти в ногу або ні
Переглянути оригіналвідповісти на0
  • Закріпити