Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Mengukir di batu - ForkLog: cryptocurrency, AI, singularitas, masa depan
Bagaimana chip AI menembus “tembok memori”
Secara tradisional GPU konsumen dirancang untuk permainan video dan rendering. Namun, mereka juga mampu menjalankan tugas lain yang membutuhkan komputasi paralel
Misalnya, di GPU dapat dijalankan penambang PoW untuk menambang cryptocurrency, tetapi dalam kompetisi dengan perangkat keras khusus, farm GPU menjadi solusi untuk proyek-proyek niche
Situasi serupa terjadi di bidang AI. Kartu grafis menjadi alat komputasi utama untuk jaringan neural. Tetapi seiring perkembangan industri, muncul permintaan untuk solusi khusus dalam bekerja dengan AI. ForkLog mengulas kondisi terkini dari babak baru perlombaan di bidang kecerdasan buatan.
Optimisasi silikon untuk AI
Ada beberapa pendekatan dalam pembuatan perangkat keras khusus untuk tugas kecerdasan buatan.
GPU konsumen dapat dianggap sebagai titik awal dalam proses spesialisasi. Kemampuannya untuk bekerja dengan perhitungan matriks paralel sangat berguna untuk pengembangan jaringan neural dan pembelajaran mendalam, tetapi masih ada ruang untuk perbaikan.
Salah satu masalah utama AI di GPU adalah kebutuhan untuk terus-menerus memindahkan data besar antara memori sistem dan GPU. Proses pendukung ini bisa memakan waktu dan energi lebih banyak daripada perhitungan yang dilakukan.
Masalah lain berasal dari sifat universal GPU. Arsitektur kartu grafis dirancang untuk berbagai tugas — dari rendering grafis hingga komputasi umum. Akibatnya, beberapa blok perangkat keras menjadi berlebihan untuk beban kerja AI yang khusus.
Pembatasan lain adalah format data. Secara historis, GPU dioptimalkan untuk operasi dengan FP32 — angka floating point 32-bit. Untuk inferensi dan pelatihan biasanya digunakan format dengan presisi lebih rendah: FP16 dan BF16 16-bit, serta bilangan bulat INT4 dan INT8.
Nvidia H200 dan B200
Beberapa produk paling populer untuk inferensi dan pelatihan adalah chip H200 dan sistem server DGX B200 — pada dasarnya merupakan GPU yang diperkuat untuk pusat data.
Elemen utama yang berorientasi AI dari akselerator ini adalah tensor core, yang dirancang untuk operasi matriks super cepat seperti pelatihan model dan inferensi batch.
Untuk mengurangi latensi akses data, Nvidia melengkapi kartu mereka dengan memori berkecepatan tinggi (HBM, High Bandwidth Memory). Pada H200 terpasang 141 GB HBM3e dengan bandwidth 4,8 TB/dtk, dan B200 memiliki angka yang lebih tinggi tergantung konfigurasi.
Tensor Processing Unit
Pada 2015, Google mengembangkan Tensor Processing Unit (TPU) — ASIC berbasis array sistolik, dirancang untuk pembelajaran mesin.
TPU memproses data melalui array blok, masing-masing melakukan operasi matematika dan mengirimkan hasil ke blok berikutnya. Akses ke memori hanya terjadi di awal dan akhir rangkaian perhitungan.
Pendekatan ini memungkinkan penghematan waktu dan energi dalam perhitungan AI dibandingkan GPU yang tidak khusus, tetapi kerja dengan memori eksternal tetap menjadi faktor pembatas.
Cerebras
Perusahaan Amerika Cerebras menemukan cara menggunakan seluruh wafer silikon sebagai prosesor, yang biasanya dipotong menjadi bagian lebih kecil untuk pembuatan chip.
Pada 2019, pengembang memperkenalkan Wafer-Scale Engine pertama mereka berukuran 300 mm. Pada 2024, perusahaan merilis prosesor WSE-3 yang ditingkatkan dengan wafer 460 mm dan 900.000 inti.
Menurut pengembang, banyak model inferensi cukup menggunakan satu WSE-3. Untuk tugas yang lebih besar, disediakan opsi untuk menggabungkan beberapa chip dalam klaster.
Groq LPU
Perusahaan Groq (bukan Grok dari xAI) menawarkan ASIC sendiri untuk inferensi berdasarkan arsitektur Language Processing Unit (LPU)
Inferensi bergantung pada generasi token secara berurutan: setiap langkah membutuhkan finalisasi token sebelumnya. Dalam kondisi ini, performa lebih bergantung pada kecepatan satu alur daripada jumlahnya
Berbeda dengan prosesor umum dan beberapa perangkat AI khusus, Groq tidak membentuk instruksi mesin selama proses tugas. Setiap operasi sudah direncanakan dalam “jadwal” khusus dan terkait dengan waktu tertentu dalam kerja prosesor.
Selain itu, seperti beberapa akselerator AI lainnya, LPU menggabungkan modul logika dan memori dalam satu chip untuk meminimalkan biaya transfer data
Taalas
Semua contoh di atas mengasumsikan tingkat pemrograman yang tinggi. Model dan bobot yang diperlukan dimuat ke memori yang dapat ditulis ulang. Operator dapat mengunggah model berbeda kapan saja atau melakukan penyesuaian.
Dengan pendekatan ini, performa tergantung pada ketersediaan, kecepatan, dan kapasitas memori.
Pengembang dari Taalas melangkah lebih jauh dengan memutuskan untuk “menyematkan” model tertentu lengkap dengan bobotnya langsung ke dalam chip pada tingkat arsitektur transistor.
Model yang biasanya berupa perangkat lunak diimplementasikan secara hardware, memungkinkan penghapusan penyimpanan data universal terpisah dan biaya terkait.
Dalam solusi pertama mereka — kartu inferensi HC1 — perusahaan menggunakan model terbuka Llama 3.1 8B
Perusahaan mengklaim peningkatan performa ribuan kali lipat dibanding GPU dalam hal efisiensi energi dan biaya.
Namun, metode ini memiliki kekurangan mendasar — tidak bisa memperbarui model tanpa mengganti chip secara lengkap.
Selain itu, HC1 dilengkapi dukungan LoRA — metode “penyetelan” LLM melalui penambahan bobot tambahan. Dengan konfigurasi LoRA yang tepat, model bisa diubah menjadi spesialis di bidang tertentu.
Kesulitan lain terkait proses desain dan pembuatan “model fisik” ini. Pengembangan ASIC memerlukan biaya besar dan bisa memakan waktu bertahun-tahun. Dalam industri AI yang sangat kompetitif, ini menjadi batasan signifikan.
Taalas mengklaim telah mengembangkan metode baru untuk menghasilkan arsitektur prosesor yang bertujuan mengatasi masalah ini. Sistem otomatis mengubah model dan bobotnya menjadi desain chip yang siap pakai dalam satu minggu.
Menurut perkiraan perusahaan, siklus produksi dari mendapatkan model baru yang belum dikenal hingga chip jadi dengan implementasi fisiknya akan memakan waktu sekitar 2 bulan.
Masa depan inferensi lokal
Chip AI khusus yang baru terutama digunakan dalam instalasi besar pusat data, menyediakan layanan cloud berbayar. Solusi non-trivial, termasuk “model fisik” yang langsung diimplementasikan di silikon, tidak dikecualikan.
Bagi konsumen, terobosan rekayasa revolusioner akan terlihat dari penurunan biaya layanan dan percepatan proses.
Sementara itu, munculnya chip yang lebih sederhana, murah, dan hemat energi menciptakan peluang untuk popularisasi solusi inferensi lokal.
Saat ini, chip AI khusus sudah hadir di ponsel pintar, laptop, kamera pengawas, dan bahkan bel pintu. Mereka memungkinkan menjalankan tugas secara lokal, memberikan latensi rendah, otonomi, dan privasi.
Optimisasi radikal, meskipun dengan fleksibilitas dalam memilih dan mengganti model, secara signifikan memperluas kemampuan perangkat tersebut dan memungkinkan integrasi komponen AI sederhana ke produk massal yang murah.
Jika mayoritas pengguna mulai mengarahkan permintaan mereka ke model yang berjalan di perangkat lokal, beban pusat data bisa berkurang, mengurangi risiko kelebihan beban industri. Mungkin, saat itu tidak perlu lagi mencari solusi ekstrem seperti menjalankan model di orbit.