在石頭上雕刻 - ForkLog：加密貨幣、人工智慧、奇點、未來

Froklog

2026-03-11 14:48:14

# 在石頭上刻劃

人工智慧晶片如何突破「記憶牆」

傳統上，消費級GPU主要用於遊戲和渲染，但它們也能執行其他需要平行計算的任務

例如，在圖形處理器上可以運行PoW挖礦來挖掘加密貨幣，但在與專用設備的競爭中，GPU礦場已成為利基項目的解決方案

類似的情況也出現在人工智慧領域。顯卡已成為神經網絡的主要計算工具，但隨著產業的發展，對專用AI解決方案的需求也在增加。ForkLog分析了人工智慧競賽新一輪的現狀。

為AI優化的矽晶片

有多種方法可以打造專門用於人工智慧任務的硬體。

消費級GPU可以視為專用化的起點。它們在平行矩陣運算方面的能力，適用於部署神經網絡和深度學習，但仍有很大的改進空間。

在圖形卡上的AI主要問題之一是需要不斷在系統記憶體和GPU之間傳輸大量數據。這些伴隨的過程可能比實際的計算耗費更多時間和能量。

另一個問題來自GPU的通用性。顯卡架構設計用於多種任務——從圖形渲染到通用計算，導致部分硬體模塊對專用AI負載來說是多餘的。

數據格式也是限制之一。歷史上，圖形處理器優化用於FP32——32位浮點數操作。推理和訓練通常使用較低精度的格式：16位的FP16和BF16，以及整數的INT4和INT8。

Nvidia H200 和 B200

用於推理和訓練的熱門產品之一是H200晶片和DGX B200伺服器系統，基本上是「強化版」的資料中心GPU。

這些加速器的主要AI導向元素是張量核心，專為超高速矩陣運算設計，如模型訓練和批量推理。

為了縮短數據存取延遲，Nvidia為其卡片配備了大量高性能記憶體（HBM，高帶寬記憶體）。H200內置141GB HBM3e，帶寬4.8TB/秒，B200根據配置，這些數據還可以更高。

張量處理單元（TPU）

到2015年，Google開發了張量處理單元（TPU）——一種基於同步陣列的ASIC處理器，專為機器學習設計。

Tensor Processing Unit 3.0 來源：維基百科。在傳統處理器架構——CPU和GPU中，每個操作都涉及讀取、處理和將中間數據寫入記憶體

TPU通過一個陣列的模塊傳遞數據，每個模塊執行數學運算並將結果傳遞給下一個模塊。記憶體存取僅在開始和結束時進行。

這種方法比非專用的圖形處理器更節省時間和能量，但外部記憶體的存取仍是瓶頸。

Cerebras

美國公司Cerebras找到了一種方法，將整個矽晶片作為處理器，這塊晶片通常被切割成較小的元素用於製造晶片。

2019年，開發者推出了首款300毫米晶圓級引擎（Wafer-Scale Engine）。到2024年，公司推出了升級版WSE-3，配備460毫米晶片和900,000個核心。

Cerebras WSE-3 和兩個Nvidia B200晶片。來源：Cerebras。Cerebras的架構將SRAM記憶體模塊分佈在與邏輯模塊相鄰的同一晶片上。每個核心配備48KB本地記憶體，彼此不爭奪存取權。

開發者表示，許多推理模型只需一個WSE-3即可運行。對於更大規模的任務，可以組建多個晶片的集群。

Groq LPU

Groq公司（不要與xAI的Grok混淆）提供基於Language Processing Unit（LPU）架構的ASIC，用於推理。

Groq晶片來源：Groq。Groq晶片的一個關鍵特點是針對序列操作的優化

推理依賴逐步生成tokens：每一步都需要完成前一步的結果。在這種情況下，性能更多取決於單個流程的速度，而非流程數量

與傳統通用處理器和某些AI專用設備不同，Groq不在運行過程中生成機器指令。每個操作都提前在一個「排程」中規劃好，並與處理器的特定時刻綁定。

此外，像其他一些AI加速器一樣，LPU將邏輯模塊和記憶體集成在同一晶片上，以最小化數據傳輸成本。

Taalas

上述所有例子都具有高度可編程性。模型和所需權重被載入可重寫的記憶體，操作者可以隨時載入不同模型或進行調整。

這種方法的性能取決於存取速度、容量和可用記憶體。

Taalas的開發者更進一步，決定將特定模型及其權重「硬嵌入」在晶片的晶體管層級。

通常作為軟體實現的模型，通過硬體實現，省去了獨立的通用數據存儲和相關成本。

在其首款解決方案——推理卡HC1中，該公司採用了開源模型Llama 3.1 8B。

Taalas HC1 來源：Taalas。該卡支持低比特精度，最高可達3位和6位參數，加快處理速度。Taalas聲稱，HC1每秒可處理多達17,000個tokens，且成本低、能耗少。

公司宣稱在能耗和成本方面，性能比GPU提升數千倍。

但這種方法的根本缺點是——無法在不更換晶片的情況下更新模型。

同時，HC1配備了LoRA（低秩適應）支持——一種通過添加額外權重來微調大型語言模型的方法。配合正確的LoRA配置，可以將模型轉變為專門領域的專家。

另一個難題是設計和生產這類「物理模型」的過程。ASIC的研發成本高昂，且可能耗時數年。在激烈的AI產業競爭中，這是一個重大限制。

Taalas聲稱，已開發出一種新型的晶片架構生成方法，旨在解決這一問題。自動化系統能在一周內將模型和權重轉化為晶片設計。

根據公司估算，從獲得新模型到生產出實體晶片的週期約為2個月。

本地推理的未來

新型專用AI晶片主要用於大型資料中心，提供雲端服務，收費運營。甚至包括「物理模型」直接在晶片上實現的方案也不在少數。

對消費者來說，這場工程突破將體現在降低服務成本和加快運算速度。

同時，更簡單、更便宜且能效更高的晶片出現，為推廣本地推理解決方案提供了條件。

目前，專用AI晶片已出現在智能手機、筆記本電腦、監控攝像頭甚至門鈴中。它們能在本地完成任務，提供低延遲、自主性和隱私保障。

即使在模型選擇和更換方面較為靈活的情況下，這種極致優化也大大擴展了這些設備的能力，並使廉價大眾產品中集成簡單AI元件成為可能。

如果大多數用戶開始將請求發送到本地設備運行的模型，資料中心的負載或許能降低，減少產業過載的風險。也許，未來不再需要尋找激進的解決方案，比如將計算能力送上軌道。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate13週年全球慶典
1665.67萬熱度
#
Gate廣場AI測評官
43.39萬熱度
#
SEC與CFTC新監管指引
19.03萬熱度
#
美聯儲利率決議
352.46萬熱度
#
比特币支撑阻力位分析
43.68萬熱度

熱門 Gate Fun
查看更多

1
emo
emo
市值:$0.1持有人數:0
0.00%
2
emo
emo
市值:$0.1持有人數:1
0.00%
3
qes
queso
市值:$2393.1持有人數:1
0.00%
4
SUNDAY
星期日
市值:$2520.33持有人數:2
0.73%
5
抄底牛cdn
草地牛
市值:$2440.48持有人數:2
0.07%

在石頭上雕刻 - ForkLog：加密貨幣、人工智慧、奇點、未來

為AI優化的矽晶片

Nvidia H200 和 B200

張量處理單元（TPU）

Cerebras

Groq LPU

Taalas

本地推理的未來

熱門話題

Gate13週年全球慶典

Gate廣場AI測評官

SEC與CFTC新監管指引

美聯儲利率決議

比特币支撑阻力位分析

熱門 Gate Fun

emo

emo

emo

emo

qes

queso

SUNDAY

星期日

抄底牛cdn

草地牛

置頂