Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Laporan apa yang membuat Musk juga merasa tidak percaya?
Moonshot AI(Tim Kimi)baru saja merilis laporan teknis yang mengguncang: 《Attention Residuals》, yang langsung meningkatkan residual connections (koneksi residual) di Transformer yang telah digunakan selama hampir 10 tahun. Hasilnya bahkan Elon Musk tidak bisa menahan diri untuk meninggalkan komentar, merasa tidak percaya (tingkat shock unbelievable).
Inti dari laporan ini bisa dirangkum dalam satu kalimat:
"Jangan biarkan setiap layer terus-menerus menambahkan informasi dari semua layer sebelumnya dengan bobot yang sama, biarkan model belajar sendiri menggunakan attention untuk memilih sinyal dari layer awal mana yang benar-benar berguna!"
Di Transformer tradisional (struktur PreNorm), output setiap layer adalah:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Secara sederhana: tidak peduli apakah informasi dari 100 layer sebelumnya berguna atau tidak, semuanya ditambahkan begitu saja. Saat depth semakin dalam, sinyal penting dari awal akan terdilusi oleh banyak layer berikutnya hingga hampir hilang (mereka menyebut fenomena ini PreNorm dilution atau representational dilution).
Tim Kimi langsung mengganti tanda "+" ini dengan attention lintas-layer yang ringan (depth-wise attention):
Formula baru kurang lebih terlihat seperti ini (versi sederhana):
x_l = Attention( Q=x_l^{pre}, K=ringkasan semua layer sebelumnya, V=value yang sesuai ) + hal lainnya
Implementasi yang lebih praktis mereka sebut Block AttnRes: setiap beberapa layer (misalnya 8-16 layer) buat ringkasan key/value, kemudian gunakan attention untuk memilih ringkasan-ringkasan ini, bukan menghitung attention di setiap layer. Dengan cara ini memory dan komputasi meningkat sangat sedikit (latency inferensi <2%), tapi efeknya sangat kuat.
Hasil eksperimen mereka (menggunakan model Kimi Linear series mereka sendiri, 48B total / 3B active):
• Pada FLOPs yang sama, peningkatan performa setara dengan keuntungan komputasi 1.25x
• Peningkatan nyata pada inferensi sequence panjang dan tugas reasoning multi-step yang kompleks
• Magnitude (norma) hidden state lebih stabil, tidak seperti residual tradisional yang meledak atau melemah seiring kedalaman
• Propagasi gradient lebih merata, layer dalam lebih mudah dilatih
⚠️⚠️
Pertanyaannya, kenapa Musk reaksinya sebesar itu?
"Residual connections tidur selama delapan tahun, akhirnya ada yang berani mengubahnya, dan mengubahnya dengan sangat elegan, hasilnya juga luar biasa baik?!"
Kenapa ini penting? Karena residual connection hampir merupakan satu-satunya penyelamat yang memungkinkan Transformer dilatih hingga 100+ layer, bahkan ribuan layer, semua orang merasa sudah optimal dan tidak bisa diubah. Hasilnya Kimi menggunakan mekanisme attention yang paling familiar, untuk mengatasi masalah dari residual itu sendiri, setara dengan memainkan kalimat "attention adalah semua yang Anda butuhkan" ke level baru.
Sekarang sudah ada implementasi Rust (berbasis framework burn), berbagai diagram penjelasan visualisasi sedang viral di X, dan ada yang mengatakan ini adalah inovasi arsitektur yang benar-benar bisa masuk generasi berikutnya dari model open source/closed source besar, setelah mHC DeepSeek.
Jika Anda membuat model besar, melatih LLM Anda sendiri, laporan ini layak untuk dibaca semalam-semalamnya versi original + kode (GitHub sudah open source).
Laporan:
Bersiaplah untuk terkejut 🚀