# 石に刻むAIチップは「記憶の壁」をどう突破するか従来、コンシューマー向けGPUはゲームやレンダリング用に設計されている。しかし、並列計算を必要とする他のタスクもこなせる。例えば、暗号通貨のPoWマイナーをGPU上で動かすことも可能だが、専門的な機器と競合する状況では、GPUファームはニッチなプロジェクトのための解決策となっている。AI分野でも似た状況が生まれている。ビデオカードはニューラルネットワークの主要な計算ツールとなったが、産業の発展に伴い、AI専用のソリューションへの需要が高まっている。ForkLogは、人工知能の新たな競争の現状を詳しく解説した。## AI向けシリコンの最適化AIタスク向けの専用ハードウェアを作るアプローチはいくつか存在する。コンシューマーGPUは、専門化への出発点と考えられる。並列行列演算に優れており、ニューラルネットワークや深層学習の展開に役立つが、改善の余地は十分にあった。GPU上のAIの最大の課題の一つは、大量のデータをシステムメモリとGPU間で絶えず移動させる必要があることだ。これらの付随処理は、実際の計算よりも多くの時間とエネルギーを消費する場合がある。もう一つの問題はGPUの汎用性に由来する。グラフィックスレンダリングから汎用計算まで幅広く対応できる設計のため、特定のAI負荷には過剰なハードウェアも存在する。データフォーマットも制約の一つだ。歴史的に、グラフィックプロセッサはFP32(32ビット浮動小数点数)に最適化されてきた。推論や学習には、より低精度のフォーマットが使われることが多い:16ビットのFP16やBF16、整数のINT4やINT8など。### Nvidia H200とB200推論や学習に最も普及している製品の一つが、H200チップとDGX B200サーバーシステムだ。これらは基本的に「強化」されたデータセンター向けGPUといえる。これらのアクセラレータのAI向け主要要素は、超高速な行列演算を行うテンソルコアだ。モデルの学習やバッチ推論に用いられる。データアクセスの遅延を減らすため、Nvidiaはこれらのカードに大量の高性能メモリ(HBM、High Bandwidth Memory)を搭載している。H200には141GBのHBM3eを搭載し、帯域幅は4.8TB/s。B200は構成によりさらに大きな容量と性能を持つ。### テンソル処理ユニット(TPU)2015年、Googleはテンソル処理ユニット(TPU)を開発した。これは、シストリカルアレイに基づくASICプロセッサで、機械学習用に設計されている。Wikipediaより。従来のCPUやGPUのアーキテクチャでは、各演算はメモリからの読み込み、処理、結果の書き込みを伴う。TPUは、ブロックの配列を通じてデータを流し、各ブロックが数学演算を行い、その結果を次に渡す仕組みだ。メモリへのアクセスは、計算の開始と終了時のみ行われる。このアプローチにより、非専門的なGPUよりも少ない時間とエネルギーでAI計算を行えるが、外部メモリへのアクセスは依然として制約となる。### CerebrasアメリカのCerebrasは、通常は小さなチップに分割されるシリコンの一枚板全体をプロセッサとして利用する方法を見出した。2019年に最初の300mmウェハスケールエンジンを発表し、2024年には460mmのWSE-3チップに900,000コアを搭載した改良型をリリースした。Cerebras WSE-3と二つのNvidia B200チップ。出典:Cerebras。Cerebrasのアーキテクチャは、SRAMメモリブロックをロジックモジュールの近くに配置し、同じシリコン板上にある各コアは48KBのローカルメモリを持ち、他のコアと競合しない。開発者によると、多くの推論モデルは1つのWSE-3で十分だが、より大規模なタスクには複数のチップをクラスター化することも可能だ。### Groq LPUGroq(xAIのGrokとは異なる)は、Language Processing Unit(LPU)アーキテクチャに基づくASICを提供している。Groqのチップ。出典:Groq。Groqの特徴の一つは、逐次演算に最適化されている点だ。推論はトークンの逐次生成に依存し、各ステップは前の結果を確定させる必要がある。このため、パフォーマンスは並列数よりも、単一のスレッドの速度に大きく依存する。従来の汎用CPUや一部のAI専用デバイスと異なり、Groqはタスク実行中にマシン命令を生成しない。各演算はあらかじめ「スケジュール」され、特定のタイミングで実行される。また、多くのAIアクセラレータと同様に、LPUはロジックとメモリを一つのチップに統合し、データ転送コストを最小化している。### Taalasこれまでの例は高いプログラム性を前提としている。モデルと重みは書き換え可能なメモリにロードされ、いつでも別のモデルや修正を行える。このアプローチでは、性能はメモリのアクセス速度と容量に依存する。Taalasはさらに一歩進み、特定のモデルと重みをトランジスタレベルのアーキテクチャに「埋め込む」方法を開発した。通常はソフトウェアとして動作するモデルをハードウェアレベルで実現し、汎用のデータストレージやそのコストを排除している。最初のソリューションであるHC1推論カードは、オープンソースのLlama 3.1 8Bモデルを採用した。Taalas HC1。出典:Taalas。低ビット精度(3ビットや6ビット)でのパラメータもサポートし、処理速度を向上させる。Taalasによると、HC1は1秒あたり17,000トークンを処理でき、低消費電力で比較的安価なデバイスだ。同社は、GPUと比較した場合のエネルギー効率とコストにおいて、数千倍の性能向上を謳っている。しかし、この方法の根本的な欠点は、モデルのアップデートにはチップの完全交換が必要なことだ。一方、HC1にはLoRA(Low-Rank Adaptation)も搭載されており、追加の重みを加えることでLLMの「微調整」が可能だ。適切なLoRA設定により、特定分野の専門家に変身させることもできる。もう一つの課題は、こうした「物理モデル」の設計と製造にかかるコストと時間だ。ASICの開発には多大な資金と数年を要し、激しい競争のAI業界では大きな制約となる。Taalasは、この問題を解決するための新しいアーキテクチャ生成手法を提案している。自動化システムは、モデルと重みのセットから1週間でチップの設計を完成させる。同社の見積もりでは、新たに未知のモデルを得てから完成品のチップに仕上げるまでに約2ヶ月かかるという。## ローカル推論の未来新たなAI専用チップは、主に巨大なデータセンターの設備に配置され、クラウドサービスを提供している。物理的なモデルをシリコン上に実装する先進的なソリューションも例外ではない。消費者にとっては、コスト削減や処理速度の向上といった革新的な進展が期待できる。また、よりシンプルで安価、かつ省エネルギーなチップの登場により、ローカル推論ソリューションの普及が促進される見込みだ。すでにスマートフォンやノートパソコン、監視カメラ、ドアベルなどにAI専用チップが搭載されている。これらは低遅延、独立性、プライバシー保護を実現し、ローカルでタスクを処理できる。大幅な最適化は、モデルの柔軟性や交換性を犠牲にすることもあるが、その分、安価な大量製品に簡単なAIコンポーネントを組み込むことが可能になる。もし多くのユーザーがローカルデバイス上のモデルにリクエストを集中させるようになれば、データセンターの負荷は軽減され、業界の過負荷リスクも低減できるだろう。そうなれば、軌道上での計算能力増強といった抜本的な解決策を追求しなくても済むかもしれない。
石に刻む - ForkLog: 暗号通貨、AI、シンギュラリティ、未来
AIチップは「記憶の壁」をどう突破するか
従来、コンシューマー向けGPUはゲームやレンダリング用に設計されている。しかし、並列計算を必要とする他のタスクもこなせる。
例えば、暗号通貨のPoWマイナーをGPU上で動かすことも可能だが、専門的な機器と競合する状況では、GPUファームはニッチなプロジェクトのための解決策となっている。
AI分野でも似た状況が生まれている。ビデオカードはニューラルネットワークの主要な計算ツールとなったが、産業の発展に伴い、AI専用のソリューションへの需要が高まっている。ForkLogは、人工知能の新たな競争の現状を詳しく解説した。
AI向けシリコンの最適化
AIタスク向けの専用ハードウェアを作るアプローチはいくつか存在する。
コンシューマーGPUは、専門化への出発点と考えられる。並列行列演算に優れており、ニューラルネットワークや深層学習の展開に役立つが、改善の余地は十分にあった。
GPU上のAIの最大の課題の一つは、大量のデータをシステムメモリとGPU間で絶えず移動させる必要があることだ。これらの付随処理は、実際の計算よりも多くの時間とエネルギーを消費する場合がある。
もう一つの問題はGPUの汎用性に由来する。グラフィックスレンダリングから汎用計算まで幅広く対応できる設計のため、特定のAI負荷には過剰なハードウェアも存在する。
データフォーマットも制約の一つだ。歴史的に、グラフィックプロセッサはFP32(32ビット浮動小数点数)に最適化されてきた。推論や学習には、より低精度のフォーマットが使われることが多い:16ビットのFP16やBF16、整数のINT4やINT8など。
Nvidia H200とB200
推論や学習に最も普及している製品の一つが、H200チップとDGX B200サーバーシステムだ。これらは基本的に「強化」されたデータセンター向けGPUといえる。
これらのアクセラレータのAI向け主要要素は、超高速な行列演算を行うテンソルコアだ。モデルの学習やバッチ推論に用いられる。
データアクセスの遅延を減らすため、Nvidiaはこれらのカードに大量の高性能メモリ(HBM、High Bandwidth Memory)を搭載している。H200には141GBのHBM3eを搭載し、帯域幅は4.8TB/s。B200は構成によりさらに大きな容量と性能を持つ。
テンソル処理ユニット(TPU)
2015年、Googleはテンソル処理ユニット(TPU)を開発した。これは、シストリカルアレイに基づくASICプロセッサで、機械学習用に設計されている。
TPUは、ブロックの配列を通じてデータを流し、各ブロックが数学演算を行い、その結果を次に渡す仕組みだ。メモリへのアクセスは、計算の開始と終了時のみ行われる。
このアプローチにより、非専門的なGPUよりも少ない時間とエネルギーでAI計算を行えるが、外部メモリへのアクセスは依然として制約となる。
Cerebras
アメリカのCerebrasは、通常は小さなチップに分割されるシリコンの一枚板全体をプロセッサとして利用する方法を見出した。
2019年に最初の300mmウェハスケールエンジンを発表し、2024年には460mmのWSE-3チップに900,000コアを搭載した改良型をリリースした。
開発者によると、多くの推論モデルは1つのWSE-3で十分だが、より大規模なタスクには複数のチップをクラスター化することも可能だ。
Groq LPU
Groq(xAIのGrokとは異なる)は、Language Processing Unit(LPU)アーキテクチャに基づくASICを提供している。
推論はトークンの逐次生成に依存し、各ステップは前の結果を確定させる必要がある。このため、パフォーマンスは並列数よりも、単一のスレッドの速度に大きく依存する。
従来の汎用CPUや一部のAI専用デバイスと異なり、Groqはタスク実行中にマシン命令を生成しない。各演算はあらかじめ「スケジュール」され、特定のタイミングで実行される。
また、多くのAIアクセラレータと同様に、LPUはロジックとメモリを一つのチップに統合し、データ転送コストを最小化している。
Taalas
これまでの例は高いプログラム性を前提としている。モデルと重みは書き換え可能なメモリにロードされ、いつでも別のモデルや修正を行える。
このアプローチでは、性能はメモリのアクセス速度と容量に依存する。
Taalasはさらに一歩進み、特定のモデルと重みをトランジスタレベルのアーキテクチャに「埋め込む」方法を開発した。
通常はソフトウェアとして動作するモデルをハードウェアレベルで実現し、汎用のデータストレージやそのコストを排除している。
最初のソリューションであるHC1推論カードは、オープンソースのLlama 3.1 8Bモデルを採用した。
同社は、GPUと比較した場合のエネルギー効率とコストにおいて、数千倍の性能向上を謳っている。
しかし、この方法の根本的な欠点は、モデルのアップデートにはチップの完全交換が必要なことだ。
一方、HC1にはLoRA(Low-Rank Adaptation)も搭載されており、追加の重みを加えることでLLMの「微調整」が可能だ。適切なLoRA設定により、特定分野の専門家に変身させることもできる。
もう一つの課題は、こうした「物理モデル」の設計と製造にかかるコストと時間だ。ASICの開発には多大な資金と数年を要し、激しい競争のAI業界では大きな制約となる。
Taalasは、この問題を解決するための新しいアーキテクチャ生成手法を提案している。自動化システムは、モデルと重みのセットから1週間でチップの設計を完成させる。
同社の見積もりでは、新たに未知のモデルを得てから完成品のチップに仕上げるまでに約2ヶ月かかるという。
ローカル推論の未来
新たなAI専用チップは、主に巨大なデータセンターの設備に配置され、クラウドサービスを提供している。物理的なモデルをシリコン上に実装する先進的なソリューションも例外ではない。
消費者にとっては、コスト削減や処理速度の向上といった革新的な進展が期待できる。
また、よりシンプルで安価、かつ省エネルギーなチップの登場により、ローカル推論ソリューションの普及が促進される見込みだ。
すでにスマートフォンやノートパソコン、監視カメラ、ドアベルなどにAI専用チップが搭載されている。これらは低遅延、独立性、プライバシー保護を実現し、ローカルでタスクを処理できる。
大幅な最適化は、モデルの柔軟性や交換性を犠牲にすることもあるが、その分、安価な大量製品に簡単なAIコンポーネントを組み込むことが可能になる。
もし多くのユーザーがローカルデバイス上のモデルにリクエストを集中させるようになれば、データセンターの負荷は軽減され、業界の過負荷リスクも低減できるだろう。そうなれば、軌道上での計算能力増強といった抜本的な解決策を追求しなくても済むかもしれない。