Gate Booster 第 4 期:發帖瓜分 1,500 $USDT
🔹 發布 TradFi 黃金福袋原創內容,可得 15 $USDT,名額有限先到先得
🔹 本期支持 X、YouTube 發布原創內容
🔹 無需複雜操作,流程清晰透明
🔹 流程:申請成為 Booster → 領取任務 → 發布原創內容 → 回鏈登記 → 等待審核及發獎
📅 任務截止時間:03月20日16:00(UTC+8)
立即領取任務:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多詳情:https://www.gate.com/announcements/article/50203
在石頭上雕刻 - ForkLog:加密貨幣、人工智慧、奇點、未來
人工智慧晶片如何突破「記憶牆」
傳統上,消費級GPU主要用於遊戲和渲染,但它們也能執行其他需要平行計算的任務
例如,在圖形處理器上可以運行PoW挖礦來挖掘加密貨幣,但在與專用設備的競爭中,GPU礦場已成為利基項目的解決方案
類似的情況也出現在人工智慧領域。顯卡已成為神經網絡的主要計算工具,但隨著產業的發展,對專用AI解決方案的需求也在增加。ForkLog分析了人工智慧競賽新一輪的現狀。
為AI優化的矽晶片
有多種方法可以打造專門用於人工智慧任務的硬體。
消費級GPU可以視為專用化的起點。它們在平行矩陣運算方面的能力,適用於部署神經網絡和深度學習,但仍有很大的改進空間。
在圖形卡上的AI主要問題之一是需要不斷在系統記憶體和GPU之間傳輸大量數據。這些伴隨的過程可能比實際的計算耗費更多時間和能量。
另一個問題來自GPU的通用性。顯卡架構設計用於多種任務——從圖形渲染到通用計算,導致部分硬體模塊對專用AI負載來說是多餘的。
數據格式也是限制之一。歷史上,圖形處理器優化用於FP32——32位浮點數操作。推理和訓練通常使用較低精度的格式:16位的FP16和BF16,以及整數的INT4和INT8。
Nvidia H200 和 B200
用於推理和訓練的熱門產品之一是H200晶片和DGX B200伺服器系統,基本上是「強化版」的資料中心GPU。
這些加速器的主要AI導向元素是張量核心,專為超高速矩陣運算設計,如模型訓練和批量推理。
為了縮短數據存取延遲,Nvidia為其卡片配備了大量高性能記憶體(HBM,高帶寬記憶體)。H200內置141GB HBM3e,帶寬4.8TB/秒,B200根據配置,這些數據還可以更高。
張量處理單元(TPU)
到2015年,Google開發了張量處理單元(TPU)——一種基於同步陣列的ASIC處理器,專為機器學習設計。
TPU通過一個陣列的模塊傳遞數據,每個模塊執行數學運算並將結果傳遞給下一個模塊。記憶體存取僅在開始和結束時進行。
這種方法比非專用的圖形處理器更節省時間和能量,但外部記憶體的存取仍是瓶頸。
Cerebras
美國公司Cerebras找到了一種方法,將整個矽晶片作為處理器,這塊晶片通常被切割成較小的元素用於製造晶片。
2019年,開發者推出了首款300毫米晶圓級引擎(Wafer-Scale Engine)。到2024年,公司推出了升級版WSE-3,配備460毫米晶片和900,000個核心。
開發者表示,許多推理模型只需一個WSE-3即可運行。對於更大規模的任務,可以組建多個晶片的集群。
Groq LPU
Groq公司(不要與xAI的Grok混淆)提供基於Language Processing Unit(LPU)架構的ASIC,用於推理。
推理依賴逐步生成tokens:每一步都需要完成前一步的結果。在這種情況下,性能更多取決於單個流程的速度,而非流程數量
與傳統通用處理器和某些AI專用設備不同,Groq不在運行過程中生成機器指令。每個操作都提前在一個「排程」中規劃好,並與處理器的特定時刻綁定。
此外,像其他一些AI加速器一樣,LPU將邏輯模塊和記憶體集成在同一晶片上,以最小化數據傳輸成本。
Taalas
上述所有例子都具有高度可編程性。模型和所需權重被載入可重寫的記憶體,操作者可以隨時載入不同模型或進行調整。
這種方法的性能取決於存取速度、容量和可用記憶體。
Taalas的開發者更進一步,決定將特定模型及其權重「硬嵌入」在晶片的晶體管層級。
通常作為軟體實現的模型,通過硬體實現,省去了獨立的通用數據存儲和相關成本。
在其首款解決方案——推理卡HC1中,該公司採用了開源模型Llama 3.1 8B。
公司宣稱在能耗和成本方面,性能比GPU提升數千倍。
但這種方法的根本缺點是——無法在不更換晶片的情況下更新模型。
同時,HC1配備了LoRA(低秩適應)支持——一種通過添加額外權重來微調大型語言模型的方法。配合正確的LoRA配置,可以將模型轉變為專門領域的專家。
另一個難題是設計和生產這類「物理模型」的過程。ASIC的研發成本高昂,且可能耗時數年。在激烈的AI產業競爭中,這是一個重大限制。
Taalas聲稱,已開發出一種新型的晶片架構生成方法,旨在解決這一問題。自動化系統能在一周內將模型和權重轉化為晶片設計。
根據公司估算,從獲得新模型到生產出實體晶片的週期約為2個月。
本地推理的未來
新型專用AI晶片主要用於大型資料中心,提供雲端服務,收費運營。甚至包括「物理模型」直接在晶片上實現的方案也不在少數。
對消費者來說,這場工程突破將體現在降低服務成本和加快運算速度。
同時,更簡單、更便宜且能效更高的晶片出現,為推廣本地推理解決方案提供了條件。
目前,專用AI晶片已出現在智能手機、筆記本電腦、監控攝像頭甚至門鈴中。它們能在本地完成任務,提供低延遲、自主性和隱私保障。
即使在模型選擇和更換方面較為靈活的情況下,這種極致優化也大大擴展了這些設備的能力,並使廉價大眾產品中集成簡單AI元件成為可能。
如果大多數用戶開始將請求發送到本地設備運行的模型,資料中心的負載或許能降低,減少產業過載的風險。也許,未來不再需要尋找激進的解決方案,比如將計算能力送上軌道。