Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
New
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Який звіт змусив Маска вважити його неймовірним?
Moonshot AI (команда Kimi) нещодавно видала вибухову технічну статтю: «Attention Residuals», яка напряму модернізувала залишкові з'єднання (Residual Connections) у Transformer, що використовуються вже майже 10 років. В результаті навіть Elon Musk не утримався від коментаря, відчувши щось неймовірне (рівень震ки unbelievable).
Суть цієї роботи в одній фразі:
«Перестаньте давати кожному шару інформацію з усіх попередніх шарів с однаковою вагою, дозвольте моделі самій навчитися використовувати увагу для вибору дійсно корисних сигналів з ранніх шарів!»
У традиційному Transformer (структура PreNorm) вихід кожного шару:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Просто та грубо: незалежно від того, чи корисна інформація з 100 попередніх шарів, все одно додається разом. По мірі поглиблення мережі ранні важливі сигнали розбавляються безліччю пізніших шарів майже на ніщо (вони називають це явище PreNorm dilution або representational dilution).
Команда Kimi прямо замінила цей знак «+» на легкувагу крос-шарову увагу (depth-wise attention):
Нова формула приблизно виглядає так (спрощена версія):
x_l = Attention( Q=x_l^{pre}, K=резюме всіх попередніх шарів, V=відповідні значення ) + інші компоненти
Більш практична реалізація називається Block AttnRes: робиться резюме key/value через кілька шарів (наприклад, 8-16 шарів), потім використовується увага для вибору цих резюме замість розрахунку уваги на кожному шарі. Таким чином збільшення пам'яті та обчислювального навантаження мінімальне (затримка інференції <2%), але результати потужні.
Їхні експериментальні результати (з використанням власних моделей Kimi Linear серії, 48B total / 3B active):
• При однакових FLOPs підвищення продуктивності еквівалентне перевазі в 1.25x обчислювальної потужності
• Помітне поліпшення для інференції довгих послідовностей та складних багатокрокових завдань
• Величина прихованих станів (норма) більш стабільна, не як у традиційних залишків, які експоненціально зростають або спадають з глибиною
• Градієнтний потік більш рівномірний, глибші шари легше тренувати
⚠️⚠️
Виникає питання: чому Маск так це сприйняв?
«Залишкові з'єднання спокійно лежали вісім років, і ось хтось нарешті насмілився їх змінити, причому так елегантно, й результати такі дивовижні?!»
Чому це важливо? Тому що залишкові з'єднання — це практично єдина рятівна соломинка для того, щоб训能Transformer на 100+ шарів, навіть понад тисячу. Усі думали, що це вже оптимально й змінювати не можна. В результаті Kimi використав найзнайоміший механізм уваги для вирішення проблем самих залишків, що означає розвинути фразу «увага — це все, що вам потрібно» на новий рівень.
Зараз вже є реалізація на Rust (на основі фреймворку burn), різні графіки пояснень на X, та люди кажуть, що це, після mHC від DeepSeek, ще одна архітектурна інновація, яка дійсно зможе потрапити в наступне покоління відкритих/закритих великих мовних моделей.
Якщо ви працюєте над великими моделями, тренуєте власні LLM, ця статтю варто прочитати ночами — оригінал + код (GitHub вже з відкритим кодом).
Звіт:
Готуйтеся до потрясіння 🚀