Khi "sốt tôm" lan toàn cầu, Huang Renxun khiến trận chiến bùng nổ với mô hình mã nguồn mở!野心toàn ngành của Nvidia (NVDA.US) hỗ trợ "tường thuật thị trường tăng của AI"

K-LinePoet · 2026-03-12T12:11:02+00:00

Với sự ra mắt của Claude Cowork từ Anthropic, cũng như OpenClaw(tức cái gọi là "tôm hùm")những đại lý AI có khả năng tự thực hiện nhiệm vụ đang gây sốt trên toàn thế giới, "siêu bá chủ chip AI" NVIDIA(NVDA.US)muốn nắm bắt làn sóng siêu lớn của các đại lý AI này, công ty đã ra mắt mô hình lớn nguồn mở chuyên biệt cho các hệ thống đại lý AI quy mô siêu lớn của mình là "Nemotron 3 Super", nhằm chạy các hệ thống đại lý AI cực kỳ phức tạp một cách có thể mở rộng. Ở mức kiểm chuẩn Pinchbench, Nemotron 3 Super thực sự vượt xa so với các đối thủ khác, chiếm vị trí thứ nhất trong nguồn mở. Về tỷ lệ thành công nhiệm vụ OpenClaw, nó đạt được điểm cao 85,6%, hiệu suất tiệm cận Claude Opus.

K-LinePoet

2026-03-12 12:11:02

Khi Anthropic ra mắt Claude Cowork và các AI tự thực thi nhiệm vụ như OpenClaw (hay còn gọi là “tôm hùm”) trở thành xu hướng toàn cầu, “ông vua chip AI” NVIDIA (NVDA.US) muốn nắm bắt làn sóng siêu lớn của các đại lý AI này. Công ty đã giới thiệu mô hình lớn mã nguồn mở “Nemotron 3 Super” dành riêng cho các đại lý AI quy mô cực lớn, nhằm vận hành các hệ thống AI phức tạp theo cách mở rộng được. Trên các bài kiểm tra chuẩn Pinchbench, Nemotron 3 Super đã bỏ xa các đối thủ, giữ vững vị trí số một về mã nguồn mở. Trong nhiệm vụ OpenClaw, nó đạt tỷ lệ thành công 85,6%, hiệu năng gần như ngang bằng Claude Opus 4.6 và GPT-5.4, hai mô hình đóng nguồn hàng đầu.

Động thái mới nhất của NVIDIA đã tăng cường mạnh mẽ xu hướng chuyển đổi của công ty có giá trị thị trường cao nhất thế giới (khoảng 4,5 nghìn tỷ USD) từ nhà cung cấp chip AI đơn thuần sang nền tảng toàn diện “mô hình—dây chuyền công cụ—dịch vụ suy luận đám mây—hệ sinh thái AI”. Đối với giá cổ phiếu NVIDIA, điều này có thể sẽ đưa cổ phiếu lên mức cao kỷ lục mới trong thời gian tới, đồng thời thúc đẩy chuỗi giá trị tính toán AI toàn cầu bước vào một giai đoạn tăng trưởng mới. Trong một tuyên bố, NVIDIA cho biết mô hình này tích hợp khả năng suy luận tiên tiến nhất, có thể hoàn thành các nhiệm vụ AI khối lượng lớn với độ chính xác cao và hiệu quả, phù hợp cho các hệ thống đại lý AI tự chủ cấp doanh nghiệp.

NVIDIA cho biết, mô hình mở mới này có 120 tỷ tham số, sử dụng kiến trúc mô hình chuyên gia hỗn hợp (MoE), kết hợp ba đổi mới sáng tạo. So với thế hệ Nemotron Super trước đó, hiệu năng suy luận đã tăng hơn 3 lần, thông lượng tối đa có thể tăng đến 5 lần, và độ chính xác tối đa có thể tăng gấp đôi. Công ty nhấn mạnh rằng, mô hình này bắt đầu cung cấp cho người dùng Perplexity, một trong 20 mô hình tổ chức trong hệ thống Computer, để thực hiện tìm kiếm hệ thống dựa trên AI đại lý. Các công ty phát triển phần mềm cao cấp như CodeRabbit, Factory và Greptile đang tích hợp mô hình này cùng các mô hình AI lớn riêng của họ vào dịch vụ đại lý AI, nhằm giảm chi phí, nâng cao độ chính xác và tăng năng suất doanh nghiệp.

Theo NVIDIA, các tổ chức nghiên cứu hàng đầu về khoa học đời sống và AI tiên tiến như Edison Scientific và Lila Sciences sẽ sử dụng mô hình nguồn mở này để hỗ trợ các mô hình đại lý của họ trong các chức năng phức tạp như truy xuất tài liệu sâu, khoa học dữ liệu và hiểu biết phân tử.

NVIDIA còn bổ sung rằng các tập đoàn lớn như Amdocs, Palantir (PLTR.US) dẫn đầu về AI và phân tích dữ liệu của Mỹ, Cadence (CDNS.US) dẫn đầu về phần mềm thiết kế chip EDA, cùng các tập đoàn châu Âu như Dassault Systèmes và Siemens đang tích cực triển khai và tùy biến mô hình này để đạt được tự động hóa quy trình làm việc trong các lĩnh vực viễn thông, an ninh mạng, thiết kế và sản xuất bán dẫn, nhằm hiện thực hóa các tầm nhìn tự động hóa đại lý hoặc cập nhật, đổi mới toàn diện các sản phẩm theo dạng đăng ký.

Về cấu trúc mô hình và các tham số triển khai, Nemotron 3 Super không chỉ đơn thuần gom 1200 tỷ tham số, mà còn xây dựng hệ thống phù hợp hơn cho quy trình làm việc của các đại lý cấp doanh nghiệp theo mô hình “tổng tham số cao, kích hoạt thấp”: tổng số tham số 120B, trong quá trình suy luận chỉ kích hoạt 12B, cửa sổ ngữ cảnh hỗ trợ nguyên bản tới 1 triệu tokens, mức tối thiểu để triển khai là 8×H100 80GB. Cấu trúc cốt lõi là kiến trúc hỗn hợp LatentMoE + Mamba-2 + một lượng nhỏ Attention, cùng với hai lớp MTP (Multi-Token Prediction) chia sẻ trọng số; trong báo cáo kỹ thuật chính thức, mô hình này gồm 88 lớp, chiều rộng 4096, 32 đầu Q, 2 đầu KV, mỗi lớp có 512 experts, Top-k kích hoạt 22 experts, kích thước MoE Latent là 1024.

Vì vậy, ý nghĩa kỹ thuật của thiết kế mô hình AI nguồn mở đột phá của NVIDIA rất rõ ràng: kiểm soát chi phí kích hoạt bằng MoE, kéo dài ngữ cảnh và thông lượng bằng Mamba, duy trì độ chính xác và ổn định suy luận bằng Attention. Nó hướng tới việc tổ chức nhiều đại lý, gọi là “não bộ điều phối agent” (agent orchestration brain), cho các hệ thống phối hợp đa đại lý, gọi các chuỗi dài, tích hợp các công cụ và bộ nhớ dài hạn, chứ không chỉ đơn thuần là các mô hình lớn tối đa cho các cuộc đối thoại một lượt.

Giám đốc điều hành Cristiano Ammon của Qualcomm (QCOM.US), công ty chip điện thoại thông minh lớn nhất thế giới, mới đây tại Hội nghị di động thế giới MWC Barcelona đã phát biểu rằng làn sóng siêu lớn của “đại lý AI” sắp tới sẽ thay đổi toàn bộ hệ sinh thái số rộng lớn hơn.

Ammon cho biết, năm 2026 sẽ là “Năm của AI đại lý”. “Chúng tôi sẽ chuyển từ hệ sinh thái số dựa trên điện thoại di động và ứng dụng sang một hệ sinh thái đột phá dựa trên các đại lý,” ông nói. “AI đại lý sẽ trở thành trung tâm. Chúng không chỉ phản hồi bạn nữa. Chúng sẽ quan sát, giải thích và hành động.”

Tham vọng của NVIDIA: Không chỉ là nhà cung cấp chip, mà còn là “nhà thầu hạ tầng AI toàn diện”

Về mặt hiệu quả, điểm mạnh lớn nhất của Nemotron 3 Super không phải là độ chính xác tuyệt đối, mà là “giảm thiểu chi phí và thông lượng suy luận của hệ thống agent trong cùng mức độ chính xác”. Báo cáo kỹ thuật chính thức của NVIDIA nêu rõ: trong cấu hình đầu vào 8k / đầu ra 64k, Nemotron 3 Super đạt tốc độ suy luận gấp 2,2 lần GPT-OSS-120B và 7,5 lần Qwen3.5-122B; blog chính thức còn nói rằng, so với thế hệ Nemotron Super trước, nó có thể đạt hơn 5 lần thông lượng.

Trong tuyên bố về mô hình, NVIDIA chỉ rõ rằng, khi các doanh nghiệp toàn cầu ngày càng vượt qua nhu cầu vận hành dựa trên AI chatbot, hướng tới các ứng dụng đa đại lý, họ gặp phải hai hạn chế chính.

Thứ nhất là bùng nổ ngữ cảnh (context explosion). Các luồng công việc đa đại lý sinh ra số token có thể cao gấp ít nhất 15 lần so với chat tiêu chuẩn, vì mỗi lần tương tác đều cần gửi lại toàn bộ lịch sử, bao gồm cả kết quả công cụ và quá trình suy luận trung gian. Thứ hai là “thuế suy nghĩ” (thinking tax). Các đại lý cực kỳ phức tạp phải thực hiện suy luận ở mỗi bước, nhưng nếu mỗi nhiệm vụ nhỏ đều dùng mô hình lớn, chi phí sẽ quá cao và phản hồi chậm, khiến doanh nghiệp khó thực thi thực tế.

NVIDIA cho biết, Nemotron 3 Super có cửa sổ ngữ cảnh tới 1 triệu tokens, cho phép luồng làm việc của mô hình đại lý giữ trạng thái đầy đủ trong bộ nhớ, tránh lệch mục tiêu. Công ty bổ sung rằng, trong 120 tỷ tham số của nó, chỉ có 12 tỷ tham số được kích hoạt trong quá trình suy luận.

Trong các luồng làm việc AI đa đại lý, nhiệm vụ suy luận thường là chạy một mô hình lớn đã được huấn luyện hoàn chỉnh, để dự đoán hoặc rút ra kết luận từ dữ liệu khổng lồ mới hoặc chưa từng thấy trước đó (603138).

Trên nền tảng Blackwell của NVIDIA, mô hình này chạy với độ chính xác NVFP4, giúp giảm yêu cầu bộ nhớ và tăng tốc độ suy luận tối đa gấp 4 lần so với nền tảng Hopper của công ty, mà không làm giảm độ chính xác. Công ty cho biết, mô hình này dựa trên dữ liệu tổng hợp được tạo ra từ các mô hình suy luận tiên tiến nhất, và có thể truy cập hoàn toàn mã nguồn mở qua build.nvidia.com, Perplexity, OpenRouter và Hugging Face.

Nemotron 3 Super chính là một tín hiệu “toàn bộ chuỗi” điển hình của NVIDIA: không chỉ bán mô hình riêng lẻ, mà còn tích hợp 120B tham số / 12B tham số kích hoạt, ngữ cảnh 1 triệu tokens, tối ưu hóa Blackwell, hệ sinh thái microservice NIM của NVIDIA, hệ sinh thái fine-tuning NeMo, hệ thống đám mây của NVIDIA và các đối tác triển khai tại chỗ trong một hệ sinh thái phần cứng/phần mềm tích hợp do NVIDIA dẫn dắt, để phục vụ các luồng công việc phức tạp của đại lý AI. NVIDIA đang mở rộng chuỗi giá trị cốt lõi của doanh nghiệp từ “bán phần cứng AI tăng tốc” sang “định nghĩa mô hình agent, stack suy luận, lộ trình triển khai và cổng doanh nghiệp”, ngày càng giống một “nhà thầu hạ tầng AI” hơn là chỉ nhà cung cấp chip.

NVIDIA cho biết, nhà sản xuất máy chủ AI lớn nhất thế giới là Dell Technologies (DELL.US) đang tích hợp mô hình này vào Dell Enterprise Hub trên nền tảng Hugging Face, để triển khai hoàn toàn tại chỗ trong Dell AI Factory, thúc đẩy luồng làm việc đa đại lý AI doanh nghiệp. Công ty cũng nói rằng, nhà cung cấp máy chủ AI hàng đầu khác là HPE (HPE.US) đang đưa Nemotron vào trung tâm agent của họ để đảm bảo khả năng mở rộng của AI đại lý trong doanh nghiệp.

Kể từ tháng 12 năm ngoái, NVIDIA bắt đầu ra mắt các mô hình nguồn mở dòng Nemotron 3. Ngoài ra, tập đoàn công nghệ Mỹ này dự kiến tổ chức Hội nghị siêu AI toàn cầu GTC từ ngày 16 đến 19 tháng 3 tới. GTC 2026 sẽ trình diễn các tiến bộ đột phá đang định hình lại các ngành công nghiệp, từ AI vật lý, nhà máy AI đến AI đại lý và suy luận.

GPU AI + CUDA ngày càng vững chắc, cổ phiếu NVIDIA có thể đạt đỉnh cao mới?

Trong blog chính thức, NVIDIA cho biết, Nemotron 3 Super đạt 85,6% trong toàn bộ bài kiểm tra PinchBench, là “mô hình mã nguồn mở tốt nhất cùng loại”. Trong nhiệm vụ OpenClaw, nó đạt tỷ lệ thành công 85,6%, hiệu năng gần như ngang bằng Claude Opus 4.6 và GPT-5.4. Vì vậy, định vị chính xác hơn của Nemotron 3 Super là: nếu một doanh nghiệp bình thường cần thực hiện các tác vụ phức tạp, nhiều bước, phối hợp dài, hoặc các tác vụ hỗn hợp mã, terminal, công cụ, Nemotron 3 Super có thể không phải là mô hình mạnh nhất ở từng điểm, nhưng rất có thể là một trong những “não bộ chính của agent có thể mở rộng” gần nhất trong các hệ mã nguồn mở và đóng phí hiện nay.

Về mặt “hàng rào bảo vệ”, dưới sự dẫn dắt của sáng lập Huang Renxun, NVIDIA đã xây dựng “hàng rào AI siêu việt” dựa trên hệ thống GPU AI + CUDA, và nay, nhờ Nemotron 3 Super ra đời, hàng rào này càng vững chắc hơn. Như đã đề cập, vai trò của NVIDIA ngày càng giống một “nhà thầu hạ tầng AI toàn diện”, chứ không chỉ là nhà cung cấp chip.

Theo tuyên bố của NVIDIA, Nemotron 3 Super không chỉ chạy trên nền GPU của NVIDIA để tối ưu hiệu quả, mà còn được thiết kế rõ ràng để tối ưu cho hiệu suất suy luận và các kịch bản agent trong Blackwell; so với thế hệ Nemotron Super trước, nó có thể tăng throughput tối đa 5 lần và độ chính xác gấp 2 lần, trong môi trường đầu vào 8k / đầu ra 64k, đạt tốc độ gấp 2,2 lần GPT-OSS-120B và 7,5 lần Qwen3.5-122B; khi chạy các nhiệm vụ suy luận khối lượng lớn trên Blackwell với NVFP4, tốc độ có thể nhanh hơn Hopper FP8 tới 4 lần. Sự phối hợp giữa “kiến trúc mô hình—định dạng lượng tử—khung suy luận—nền tảng GPU hàng đầu” này khiến CUDA, TensorRT-LLM, NIM, DGX/Blackwell khó bị thay thế bởi các biến số đơn lẻ. Điều này cũng cho thấy NVIDIA đang nâng hàng rào bảo vệ từ “hiệu năng GPU đơn lẻ và rào cản CUDA” lên “kiến trúc mô hình—stack suy luận—nền tảng GPU—triển khai doanh nghiệp” của toàn bộ hệ thống AI.

Các nhà phân tích Phố Wall gần đây đã chuyển sang thái độ tích cực hơn về NVIDIA, khi Nemotron 3 Super ra mắt. Xu hướng này sẽ là chất xúc tác chính giúp cổ phiếu NVIDIA vượt qua đỉnh cao lịch sử trước đó là 212,167 USD vào tháng 10. Tính đến phiên đóng cửa ngày thứ Tư, cổ phiếu NVIDIA đạt 186,03 USD.

Nhóm phân tích của Morgan Stanley, một trong những tập đoàn tài chính lớn nhất Phố Wall, đã nhấn mạnh rằng, trong bối cảnh giá cổ phiếu NVIDIA đã có phần điều chỉnh giảm và đi ngang, họ vẫn duy trì xếp hạng “ưu tiên hàng đầu” cho cổ phiếu bán dẫn này, cùng mục tiêu giá 260 USD, nhấn mạnh đây là thời điểm mua vào tốt nhất. Theo dữ liệu trung bình của các nhà phân tích trên TIPRANKS, các chuyên gia dự đoán cổ phiếu NVIDIA có thể tăng lên 273 USD trong 12 tháng tới, tức là tiềm năng tăng trưởng lên tới 47%.

Khảo sát mới nhất của Morgan Stanley cho thấy, “khoảng cách cung cầu AI tính toán toàn cầu mỗi ngày đang mở rộng mạnh mẽ ở mức hàng đơn vị”, các tập đoàn siêu tính toán (Hyperscalers) vẫn tiếp tục đẩy mạnh tăng trưởng các nhiệm vụ AI. Dù một số khách hàng Hyperscaler như Amazon, Meta tự phát triển AI ASIC hoặc mua các cụm GPU của AMD, dự kiến đến năm 2026, các khách hàng này sẽ tăng mua sản phẩm của NVIDIA hơn 80%.

Morgan dự báo, Hội nghị GTC 2026 sắp tới sẽ trình diễn lộ trình công nghệ hàng đầu của NVIDIA, giúp xoa dịu các lo ngại về mất thị phần; kiến trúc Vera Rubin và các bước đi mới trong lĩnh vực AI vật lý (Physical AI) của NVIDIA sẽ mở ra một thị trường TAM mới, đầy tiềm năng.

Khi quy mô mô hình, chuỗi suy luận và các tác vụ đa phương thức/đại lý AI dẫn dắt tiêu thụ năng lượng theo cấp số nhân, các tập đoàn công nghệ lớn sẽ tập trung hơn vào đầu tư hạ tầng tính toán AI. Các nhà đầu tư toàn cầu sẽ tiếp tục coi các câu chuyện tăng trưởng của NVIDIA và AMD về hạ tầng AI, các dòng sản phẩm mới, các cụm tính toán AI là những câu chuyện đầu tư rõ ràng nhất trong thị trường chứng khoán toàn cầu. Điều này cũng đồng nghĩa với việc các chủ đề đầu tư liên quan đến điện năng, hệ thống làm mát bằng chất lỏng, liên kết quang học, các chuỗi cung ứng liên quan đến đào tạo và suy luận AI sẽ tiếp tục sôi động, theo chân các nhà sản xuất như NVIDIA, AMD, Broadcom, TSMC, Micron, trong bối cảnh địa chính trị Trung Đông còn nhiều bất ổn.

Theo dự báo mới nhất của các tổ chức phân tích, các tập đoàn công nghệ Mỹ như Amazon, Google (thuộc Alphabet), Meta Platforms, Oracle và Microsoft dự kiến sẽ chi tổng cộng khoảng 6500 tỷ USD cho các hoạt động đầu tư liên quan đến AI vào năm 2026, một số dự báo còn cho rằng tổng chi tiêu có thể vượt quá 7000 tỷ USD—tăng hơn 70% so với năm trước. Đặc biệt, trong giai đoạn 2023-2026, các “ông lớn” này dự kiến sẽ đầu tư khoảng 1,5 nghìn tỷ USD vào hạ tầng tính toán AI khổng lồ, so với tổng cộng khoảng 600 tỷ USD trong toàn bộ lịch sử trước đó của họ trước năm 2022.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.