Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
New
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
DeepSeek новий документ: Як структура гіперзв’язку з обмеженнями многообразу вирішує проблему навчання глибоких мереж
【链文】DeepSeek останнім часом опублікувала новий науковий документ, який привернув увагу технічної спільноти. Вони запропонували нову архітектуру під назвою потокове обмеження гіперзв’язку (mHC), основна мета якої досить проста — вирішити дві проблеми існуючих технологій гіперзв’язку (HC): нестабільність тренування та обмежену масштабованість.
Корінь цієї проблеми полягає в тому, що технологія HC порушує властивість ідентичного відображення. Рішення DeepSeek полягає у тому, щоб відобразити простір залишкових зв’язків HC на певну багатообразність, що дозволяє відновити властивість ідентичного відображення. Звучить трохи абстрактно, але по суті — за допомогою більш розумних математичних відображень зробити тренування глибоких мереж більш стабільним і масштабованим.
У статті також враховано оптимізацію інфраструктури для забезпечення реальної ефективності. Результати експериментів показують значне покращення продуктивності та високий рівень масштабованості. Це означає, що при використанні більш глибоких структур мереж процес тренування стає більш керованим.
DeepSeek вважає, що mHC є гнучким і практичним розширенням технології HC. Ця робота не лише допомагає галузі глибше зрозуміти топологічний дизайн архітектур, але й окреслює перспективний напрямок розвитку великих моделей. Цей документ був створений у співпраці з 解振达,韦毅轩, 曹焕琪 та 梁文锋.
З довгострокової перспективи, прориви у цій базовій архітектурі матимуть глибокий вплив на стабільність і масштабованість великих моделей.
Знову ці математичні чорні магії? По суті, це просто щоб мережа не зламалася під час тренування
Я чесно не розумію цю обмеженням маніфольдів, але якщо експериментальні дані гарні, то й добре
Чи нарешті глибокі мережі зможуть стабільно тренуватися? Тоді ще кілька людей згорять
Але якщо говорити про масштабованість, якщо її справді можна вирішити, то впровадження в майбутньому буде набагато швидшим
Якщо ця стаття справді надійна, то це означає, що у базовому рівні AI ще стільки ям для заповнення
Зачекайте, а наскільки ефективно ця штука працює на практиці? Не знову ж таки, тільки на папері виглядає гарно
Нова архітектура звучить круто, але реальний ефект потрібно чекати від ринку, я ж поки що посміюся і з цим.
Ця логіка схожа на мої інвестиції у криптовалюту: теорія ідеальна, а реальність — крововилив, ха-ха.
Ця хвиля DeepSeek, мабуть, прокладає шлях для тренування великих моделей, стабілізація глибоких мереж збільшує ймовірність появи монстрів на наступному етапі.
Чесно кажучи, якщо таку базову дослідницьку роботу зробити добре, вигоду отримають переважно великі компанії, а ми, дрібні інвестори, можемо лише їсти залишки.
Якщо дійсно зможемо стабільно тренувати глибокі мережі, тоді потрібно добре подивитися на експериментальні дані, щоб не було так, що стаття виглядає гарно, а на практиці провалюється
Відновлення властивості ідентичної відображення... почекаємо з відгуками з виробничого середовища, щоб не запізнитися
Стаття Deep стає все більш конкурентною, якщо справді буде прорив у масштабованості, це дійсно хороша новина для витрат на тренування великих моделей
Я маю уважно подивитися на цю систему математичних відображень, здається, знову потрібно поєднати теорію з практикою на довгий час
Дані на блокчейні ще не з'явилися, ми, роздрібні інвестори, поки що спостерігаємо, щоб не стати пасивною стороною. Але кажучи чесно, ця хвиля DeepSeek дійсно знаходиться в центрі шторму, ті, хто рано зробив ставку, можливо, посміються.
Обмеження у вигляді маніфольду звучать дуже складно, але наскільки ця архітектурна інновація віддалена від реального застосування? Чи є великі організації, які вже займаються арбітражем у цій сфері?
Чесно кажучи, чисті технічні прориви часто перебільшують, я ставлю на реакцію ринку, а не на саму статтю. Як тільки комісії майнерів піднімуться — саме час для мене тікати.
Коли з'являться нові дані про масштабованість? Чи є детальне порівняння з аналогічними рішеннями? Це мене справді цікавить.
---
DeepSeek знову придумав нову фішку, здається, що це виправлення старих проблем з технологією HC
---
Говорили довго і нудно — це просто зробити тренування більш стабільним, наскільки швидко воно може працювати — ще питання
---
Я не дуже зрозумів цю ідентичність відображення, здається, що автори статей просто ускладнюють прості речі
---
Переваги масштабованості? Наскільки швидше за існуючі рішення — є бенчмарки?
---
Ще одна "революційна" архітектура, подивимося, чи можна її застосувати у реальних сценаріях
---
Термін "обмеження на многовимірні простори" звучить дуже дорого, цікаво, скільки це коштує у реальності
---
Оптимізація алгоритмів завжди — "теоретично добре, але на практиці все залежить від GPU"
---
Здається, що над цим працювали з усією душею, але у статтях все виглядає як декорації, де деталі?
---
Проблему стабільності тренування глибоких мереж вирішено, а що з використанням пам’яті — такі рішення зазвичай мають свої "завихрення"
Обмеження на многовид? Простими словами — запобігти краху мережевого навчання, я особисто не зрозумів haha
Глибока мережа стала стабільнішою, це допомагає у налаштуванні майнінгу?
Математичне відображення, відображення, відображення, чи може це безпосередньо підвищити ефективність обчислення газових зборів?
DeepSeek знову працює над моделлю архітектури, цей темп справді важко наздогнати
Хочу просто знати, чи зможе вона запуститися і не зламатися, все інше — порожнеча