Mengukir di batu - ForkLog: cryptocurrency, AI, singularitas, masa depan

img-e85279aa380bface-8456330719811929# Ukir di batu

Bagaimana chip AI menembus “tembok memori”

Secara tradisional GPU konsumen dirancang untuk permainan video dan rendering. Namun, mereka juga mampu menjalankan tugas lain yang membutuhkan komputasi paralel

Misalnya, di GPU dapat dijalankan penambang PoW untuk menambang cryptocurrency, tetapi dalam kompetisi dengan perangkat keras khusus, farm GPU menjadi solusi untuk proyek-proyek niche

Situasi serupa terjadi di bidang AI. Kartu grafis menjadi alat komputasi utama untuk jaringan neural. Tetapi seiring perkembangan industri, muncul permintaan untuk solusi khusus dalam bekerja dengan AI. ForkLog mengulas kondisi terkini dari babak baru perlombaan di bidang kecerdasan buatan.

Optimisasi silikon untuk AI

Ada beberapa pendekatan dalam pembuatan perangkat keras khusus untuk tugas kecerdasan buatan.

GPU konsumen dapat dianggap sebagai titik awal dalam proses spesialisasi. Kemampuannya untuk bekerja dengan perhitungan matriks paralel sangat berguna untuk pengembangan jaringan neural dan pembelajaran mendalam, tetapi masih ada ruang untuk perbaikan.

Salah satu masalah utama AI di GPU adalah kebutuhan untuk terus-menerus memindahkan data besar antara memori sistem dan GPU. Proses pendukung ini bisa memakan waktu dan energi lebih banyak daripada perhitungan yang dilakukan.

Masalah lain berasal dari sifat universal GPU. Arsitektur kartu grafis dirancang untuk berbagai tugas — dari rendering grafis hingga komputasi umum. Akibatnya, beberapa blok perangkat keras menjadi berlebihan untuk beban kerja AI yang khusus.

Pembatasan lain adalah format data. Secara historis, GPU dioptimalkan untuk operasi dengan FP32 — angka floating point 32-bit. Untuk inferensi dan pelatihan biasanya digunakan format dengan presisi lebih rendah: FP16 dan BF16 16-bit, serta bilangan bulat INT4 dan INT8.

Nvidia H200 dan B200

Beberapa produk paling populer untuk inferensi dan pelatihan adalah chip H200 dan sistem server DGX B200 — pada dasarnya merupakan GPU yang diperkuat untuk pusat data.

Elemen utama yang berorientasi AI dari akselerator ini adalah tensor core, yang dirancang untuk operasi matriks super cepat seperti pelatihan model dan inferensi batch.

Untuk mengurangi latensi akses data, Nvidia melengkapi kartu mereka dengan memori berkecepatan tinggi (HBM, High Bandwidth Memory). Pada H200 terpasang 141 GB HBM3e dengan bandwidth 4,8 TB/dtk, dan B200 memiliki angka yang lebih tinggi tergantung konfigurasi.

Tensor Processing Unit

Pada 2015, Google mengembangkan Tensor Processing Unit (TPU) — ASIC berbasis array sistolik, dirancang untuk pembelajaran mesin.

Tensor Processing Unit 3.0. Sumber: Wikipedia. Dalam arsitektur prosesor konvensional — CPU dan GPU — setiap operasi melibatkan pembacaan, pemrosesan, dan penulisan data sementara ke memori

TPU memproses data melalui array blok, masing-masing melakukan operasi matematika dan mengirimkan hasil ke blok berikutnya. Akses ke memori hanya terjadi di awal dan akhir rangkaian perhitungan.

Pendekatan ini memungkinkan penghematan waktu dan energi dalam perhitungan AI dibandingkan GPU yang tidak khusus, tetapi kerja dengan memori eksternal tetap menjadi faktor pembatas.

Cerebras

Perusahaan Amerika Cerebras menemukan cara menggunakan seluruh wafer silikon sebagai prosesor, yang biasanya dipotong menjadi bagian lebih kecil untuk pembuatan chip.

Pada 2019, pengembang memperkenalkan Wafer-Scale Engine pertama mereka berukuran 300 mm. Pada 2024, perusahaan merilis prosesor WSE-3 yang ditingkatkan dengan wafer 460 mm dan 900.000 inti.

Cerebras WSE-3 dan dua chip Nvidia B200. Sumber: Cerebras. Arsitektur Cerebras mengatur distribusi blok memori SRAM dekat dengan modul logika di wafer yang sama. Setiap inti bekerja dengan 48 KB memori lokal sendiri dan tidak bersaing dengan inti lain untuk akses.

Menurut pengembang, banyak model inferensi cukup menggunakan satu WSE-3. Untuk tugas yang lebih besar, disediakan opsi untuk menggabungkan beberapa chip dalam klaster.

Groq LPU

Perusahaan Groq (bukan Grok dari xAI) menawarkan ASIC sendiri untuk inferensi berdasarkan arsitektur Language Processing Unit (LPU)

Chip Groq. Sumber: Groq. Salah satu fitur utama chip Groq adalah optimisasi untuk operasi berurutan

Inferensi bergantung pada generasi token secara berurutan: setiap langkah membutuhkan finalisasi token sebelumnya. Dalam kondisi ini, performa lebih bergantung pada kecepatan satu alur daripada jumlahnya

Berbeda dengan prosesor umum dan beberapa perangkat AI khusus, Groq tidak membentuk instruksi mesin selama proses tugas. Setiap operasi sudah direncanakan dalam “jadwal” khusus dan terkait dengan waktu tertentu dalam kerja prosesor.

Selain itu, seperti beberapa akselerator AI lainnya, LPU menggabungkan modul logika dan memori dalam satu chip untuk meminimalkan biaya transfer data

Taalas

Semua contoh di atas mengasumsikan tingkat pemrograman yang tinggi. Model dan bobot yang diperlukan dimuat ke memori yang dapat ditulis ulang. Operator dapat mengunggah model berbeda kapan saja atau melakukan penyesuaian.

Dengan pendekatan ini, performa tergantung pada ketersediaan, kecepatan, dan kapasitas memori.

Pengembang dari Taalas melangkah lebih jauh dengan memutuskan untuk “menyematkan” model tertentu lengkap dengan bobotnya langsung ke dalam chip pada tingkat arsitektur transistor.

Model yang biasanya berupa perangkat lunak diimplementasikan secara hardware, memungkinkan penghapusan penyimpanan data universal terpisah dan biaya terkait.

Dalam solusi pertama mereka — kartu inferensi HC1 — perusahaan menggunakan model terbuka Llama 3.1 8B

Taalas HC1. Sumber: Taalas. Kartu ini mendukung presisi bit rendah hingga parameter 3-bit dan 6-bit, mempercepat proses. Menurut klaim Taalas, HC1 mampu memproses hingga 17.000 token per detik, tetap menjadi perangkat yang relatif murah dan hemat energi.

Perusahaan mengklaim peningkatan performa ribuan kali lipat dibanding GPU dalam hal efisiensi energi dan biaya.

Namun, metode ini memiliki kekurangan mendasar — tidak bisa memperbarui model tanpa mengganti chip secara lengkap.

Selain itu, HC1 dilengkapi dukungan LoRA — metode “penyetelan” LLM melalui penambahan bobot tambahan. Dengan konfigurasi LoRA yang tepat, model bisa diubah menjadi spesialis di bidang tertentu.

Kesulitan lain terkait proses desain dan pembuatan “model fisik” ini. Pengembangan ASIC memerlukan biaya besar dan bisa memakan waktu bertahun-tahun. Dalam industri AI yang sangat kompetitif, ini menjadi batasan signifikan.

Taalas mengklaim telah mengembangkan metode baru untuk menghasilkan arsitektur prosesor yang bertujuan mengatasi masalah ini. Sistem otomatis mengubah model dan bobotnya menjadi desain chip yang siap pakai dalam satu minggu.

Menurut perkiraan perusahaan, siklus produksi dari mendapatkan model baru yang belum dikenal hingga chip jadi dengan implementasi fisiknya akan memakan waktu sekitar 2 bulan.

Masa depan inferensi lokal

Chip AI khusus yang baru terutama digunakan dalam instalasi besar pusat data, menyediakan layanan cloud berbayar. Solusi non-trivial, termasuk “model fisik” yang langsung diimplementasikan di silikon, tidak dikecualikan.

Bagi konsumen, terobosan rekayasa revolusioner akan terlihat dari penurunan biaya layanan dan percepatan proses.

Sementara itu, munculnya chip yang lebih sederhana, murah, dan hemat energi menciptakan peluang untuk popularisasi solusi inferensi lokal.

Saat ini, chip AI khusus sudah hadir di ponsel pintar, laptop, kamera pengawas, dan bahkan bel pintu. Mereka memungkinkan menjalankan tugas secara lokal, memberikan latensi rendah, otonomi, dan privasi.

Optimisasi radikal, meskipun dengan fleksibilitas dalam memilih dan mengganti model, secara signifikan memperluas kemampuan perangkat tersebut dan memungkinkan integrasi komponen AI sederhana ke produk massal yang murah.

Jika mayoritas pengguna mulai mengarahkan permintaan mereka ke model yang berjalan di perangkat lokal, beban pusat data bisa berkurang, mengurangi risiko kelebihan beban industri. Mungkin, saat itu tidak perlu lagi mencari solusi ekstrem seperti menjalankan model di orbit.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan