NVIDIA 發布 Nemotron 3 Nano Omni 以推動企業應用的統一多模態人工智慧

簡要概述

英偉達推出Nemotron 3 Nano Omni,一款開放式多模態人工智慧模型,融合視覺、語音和語言,以提升企業AI性能、效率和可擴展部署。

NVIDIA LNVIDIA Launches Nemotron 3 Nano Omni To Advance Unified Multimodal AI For Enterprise Applications科技公司英偉達宣布推出Nemotron 3 Nano Omni,一款開放式多模態人工智慧模型,旨在將視覺、語音和語言能力整合於單一系統中。該模型旨在使AI代理能夠處理並推理多種數據類型,包括影片、音頻、圖像、文件和文本,同時提供更快、更高效的回應。

根據公告,該模型定位為企業級解決方案,旨在改善多模態AI代理的開發與部署。它被描述為在提供高準確率的同時,降低運營成本,並為開發者和組織提供部署的彈性與控制。據報導,該系統在多個與文件智能以及音頻和視頻理解相關的基準測試中取得了領先的性能。

行業已開始採用該模型,部分早期用戶包括Aible、Applied Scientific Intelligence (ASI)、Ekacare、H公司和Pyler。其他如Amdocs、Dell、DocuSign、Infosys、IQVIA、Oracle、Palantir Technologies、Quantiphi、Tata Consultancy Services和Zefr等組織也在評估該模型,考慮將其整合到企業工作流程中。

多模態AI處理以提升效率、情境感知與企業部署彈性

在技術應用方面,Nemotron 3 Nano Omni旨在減少使用不同模態模型時常見的碎片化問題。傳統系統通常依賴獨立的組件來處理視覺、語音和語言,這可能增加延遲、成本並導致跨模態推理的不一致。通過將視覺和音頻編碼整合在基於混合專家模型的單一架構中,該模型旨在簡化推理流程並提升吞吐量。

該系統還旨在作為更廣泛代理框架中的感知層,與Nemotron家族的其他模型協同工作。在實際應用中,它可以支援解讀圖形用戶界面的電腦代理、分析混合格式企業數據的文件智能系統,以及維持多輸入流上下文理解的音視頻推理工具。

該模型的架構設計能處理高解析度輸入和長距離上下文,從而更詳細地解讀複雜環境,例如螢幕錄影或多文件分析。這一能力旨在提升在需要持續情境感知任務中的表現。

英偉達已將Nemotron 3 Nano Omni作為開放模型發布,提供權重、數據集和訓練方法。公司表示,這種方式允許組織根據監管或數據治理需求,在雲端、本地和邊緣基礎設施中定制和部署系統。該模型可通過多個分發渠道獲取,包括開發者平台和合作夥伴生態系統,支持與現有AI流程的整合。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆