4月10日,DeepSeek官方部落格發布了一篇文章,介紹DeepSeek V4,這是由DeepSeek公司即將推出的旗艦模型。該模型不僅突破了參數規模的限制,還承諾前所未有的效率。預計DeepSeek V4能夠處理1 триллион (1T)個參數,原生支援多模態資料,包括文字、影像、影片與音頻,並具有1百万個令牌的上下文視窗(相當於15-20部完整小說),這使其成為西方大型科技公司(如OpenAI的GPT-5.4以及Anthropic的Claude Opus 4.5)的直接競爭對手。



DeepSeek V4的API定價比GPT-5.4與Claude Opus 4.5便宜10-50倍;預期DeepSeek V4將以Apache 2.0許可證開源發布。DeepSeek V4可在本地於配備兩台RTX 4090或一台RTX 5090的系統上運行。此外,DeepSeek為DeepSeek V4提出三項革命性創新:1. Memory engram;2. 多樣性受限超連結 (mHC);3. 稀疏注意力機制 (DSA)和Lightning indexator。

此外,在官方聲明中,DeepSeek指出,由於美國對高品質NVIDIA圖形處理器((例如B300和H200))的嚴格出口限制,DeepSeek針對V4進行了最佳化,主要依賴在中國生產的晶片用於推論。雖然最初的訓練仍可能使用NVIDIA設備((例如H800)),但該模型已高度最佳化以適配華為Ascend 950PR以及Cambricon MLU晶片。
查看原文
post-image
post-image
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言