原文と比べた結果、この記事には多数の(または内容の大部分に影響ある)誤訳 があることが判明しています。情報の利用には注意してください。 正確な表現に改訳できる方を求めています。 (2023年6月 )
AIアクセラレータ (英 : AI accelerator )は、人工知能 (AI) アプリケーション、特に人工ニューラルネットワーク 、回帰型ニューラルネットワーク [ 1] 、マシンビジョン 、機械学習 を高速化するために設計された特殊なハードウェアアクセラレータ [ 2] またはコンピュータシステム[ 3] [ 4] の分類のひとつである。代表的なアプリケーションには、ロボット工学 、モノのインターネット (IoT)、その他のデータ集約型 またはセンサー駆動型のタスクのためのアルゴリズムが含まれる[ 5] 。それらは多くの場合、メニーコア 設計であり、一般的には低精度 算術演算、斬新なデータフロー・アーキテクチャ (英語版 ) 、またはインメモリ・コンピューティング (英語版 ) 機能に焦点を当てている[ 6] 。2018年現在、典型的なAI集積回路 チップには数十億 (英語版 ) 個のMOSFET トランジスタが含まれている[ 7] 。
このカテゴリのデバイスには、多くのベンダー固有の用語が存在しており、これはドミナント・デザイン (英語版 ) (支配的設計)のない新興技術 (英語版 ) である。
コンピュータシステム は、コ・プロセッサ と呼ばれる特殊なタスクのための専用アクセラレータでCPU を補完することが頻繁に行われていた。アプリケーション固有 の特筆すべきハードウェアユニット には、グラフィックス 用ビデオカード 、サウンドカード 、GPU 、DSP などがある。2010年代にディープラーニング や人工知能 のワークロード (作業負荷)が著しく増大するようになると、これらのタスクを高速化 するために、専用のハードウェアユニットが開発されたり、既存の製品を基にしてタスクに順応するよう改良されたりした。
早くも1993年には、DSP がニューラルネットワークのアクセラレータとして使用され、例えば光学文字認識 (OCR) ソフトウェアを高速化するために使用されていた[ 8] 。1990年代には、ニューラルネットワーク・シミュレーションを含む様々なアプリケーションを目的としたワークステーション用の並列ハイスループットシステムの開発も試みもあった[ 9] [ 10] [ 11] 。FPGA ベースのアクセラレータも1990年代に推論[ 12] とトレーニング[ 13] の両方のために最初に検討された。ANNAはヤン・ルカン によって開発されたニューラルネットCMOSアクセラレータである[ 14] 。
ヘテロジニアス・コンピューティング (異種コンピューティング)とは、1つのシステム、あるいは1つのチップに、特定の種類のタスクに最適化された多数の特化型プロセッサを組み込むことを意味する。Cell B.E. マイクロプロセッサのようなアーキテクチャは[ 15] 、パックされた低精度算術演算 (packed low precision arithmetic) のサポート、データフロー ・アーキテクチャ、レイテンシよりも「スループット」を優先するなど、AIアクセラレータと大きく重複する特徴を持っている。Cellプロセッサはその後、AIを含む多くのタスク[ 16] [ 17] [ 18] に応用された[ 19] [ 20] [ 21] 。
2000年代 には、CPU は、動画やゲームのワークロードの高まりに牽引されて、SIMD ユニットのデータ幅を次第に拡張し、パックされた 低精度のデータ型 をサポートするようになった[ 22] 。
2020年代は、AIエンジンのCPUチップへの搭載という流れが起きている。AppleのAシリーズやMシリーズに搭載されているNeural Engine[ 23] [ 24] 、AMDのRyzen AI[ 25] [ 26] 、IntelのMeteor Lake 以降に統合されたNeural Processing Unit[ 27] [ 28] (NPU) など。
Graphics Processing Unit (GPU) は、Direct3D やVulkan のような各種3DグラフィックスAPIによって標準化されたグラフィックスパイプライン を持ち、画像の操作や、局所的な画像特性の計算に特化したハードウェアである。プログラマブルシェーダー および統合型シェーダーアーキテクチャ の採用によりハードウェアレベルで汎用計算(GPGPU )への道が開け、さらにCUDA やOpenCL のようなソフトウェアプログラミング環境が整ったことで、GPUの持つ超並列処理性能の活用が進んだ。ニューラルネットワークと画像操作の数学的基礎は類似しており、行列を含む自明な並列性 (英語版 ) [ 注釈 1] のタスクであるため、GPUは機械学習タスクにますます使用されるようになってきている[ 30] [ 31] [ 32] 。2016年現在、GPUはAI作業で人気があり、自動運転車[ 33] などのデバイスでのトレーニング[ 34] と推論の両方でディープラーニングを促進する方向に進化し続けている。NVIDIA NVLink などのGPU開発者は、AIが恩恵を受けるような、データフローのワークロード分散のために追加の接続機能を開発している[ 35] 。GPUのAIアクセラレーションへの応用が進むにつれ、GPUメーカーは、ニューラルネットワーク に特化したハードウェア を組み込んで、これらのタスクをさらに高速化している[ 36] [ 37] 。Tensor Core (テンソルコア) は、ニューラルネットワークのトレーニングを高速化することを目的としている[ 36] 。
ディープラーニングのフレームワークはまだ進化の途上にあり、カスタムのハードウェアを設計するのは難しい。FPGA (Field-Programmable Gate Array)のような再構成可能なデバイス により、ハードウェア、フレームワーク、ソフトウェアを相互に進化 させることが容易になる[ 38] [ 12] [ 13] [ 39] 。
マイクロソフトは、FPGAチップを使って推論 [ 40] を高速化している。FPGAをAIアクセラレーションに適用することは、インテル がアルテラ を買収することを動機付け、サーバCPUにFPGAを統合することで、汎用的なタスクだけでなくAIも加速できるようにすることを目的としている[ 41] 。
AI関連のタスクでは、GPUとFPGAの方がCPUよりもはるかに優れた性能を発揮するが、ASIC (Application Specific Integrated Circuit) を介したより特殊な設計では[要出典 ] 、最大で10倍の効率性[ 42] [ 43] が得られる可能性がある。これらのアクセラレータは、最適化されたメモリ使用 (英語版 ) や[要出典 ] 、より低精度の算術演算 (英語版 ) を使用して計算を高速化し、計算のスループット を向上させるなどの戦略を採用している[ 44] [ 45] 。AIアクセラレーションで採用されている低精度浮動小数点 フォーマットには、半精度浮動小数点 フォーマットやbfloat16浮動小数点フォーマット (英語版 ) がある[ 46] [ 47] [ 48] [ 49] [ 50] [ 51] [ 52] 。FacebookやAmazon、Googleなどの企業が独自のAI ASICを設計している[ 53] [ 54] 。
2017年6月、IBM の研究者は、ヘテロジニアス・コンピューティング と大規模並列システム に一般化するアプローチを目的とした、時間的相関検出に適用されるインメモリ・コンピューティング (英語版 ) と相変化メモリ ・アレイに基づくフォン・ノイマン・アーキテクチャ とは対照的なアーキテクチャを発表した[ 55] 。2018年10月、IBMの研究者は、インメモリ処理に基づく、人間の脳のシナプスネットワークをモデルにしたアーキテクチャ (英語版 ) を発表し、ディープニューラルネットワーク を高速化した[ 56] 。このシステムは相変化メモリアレイに基づいている[ 57] 。
2019年にミラノ工科大学の研究者は、1回の操作で数10ナノ秒で連立一次方程式を解く方法を発見した。彼らのアルゴリズムは、オームの法則とキルヒホッフの法則で行列-ベクトル乗算を1ステップで実行することにより、時間とエネルギーの高効率で実行するアナログ抵抗変化型メモリ を使用したインメモリ・コンピューティング (英語版 ) に基づいている。研究者らは、クロスポイント抵抗変化型メモリを備えたフィードバック回路が、一次方程式系、行列固有ベクトル、微分方程式などの代数的問題をわずか1ステップで解くことができることを示した。このようなアプローチは、従来のアルゴリズムと比較して計算時間を大幅に改善する[ 58] 。
2020年、Maregaらは、浮遊ゲート 電界効果トランジスタ (FGFET) をベースにしたロジックインメモリデバイスおよび回路を開発するための大面積アクティブチャネル材料を用いた実験を発表した[ 59] 。
このような原子的に薄い半導体 は、論理演算とデータ保存の両方に同じ基本的なデバイス構造を用いるエネルギー効率の高い機械学習 アプリケーションに有望と考えられている。著者らは、半導電性二硫化モリブデンなどの二次元材料を用いた[ 59] 。
2016年現在、この分野はまだ流動的であり、ベンダーは自社の設計とAPI がドミナント・デザイン (英語版 ) になることを期待して、「AIアクセラレータ」に相当するものについて独自のマーケティング用語を推薦している。これらのデバイス間の境界線についても、正確な形式についても合意はないが、いくつかの例は明らかにこの新しい空間を埋めることを目的としており、かなりの量の機能が重複している。
コンシューマー向けのグラフィックス・アクセラレータ が登場した過去の業界では、Direct3D が提示したモデルを実装した全体的なパイプラインに落ち着くまでに、さまざまな形式をとってきた「グラフィックスアクセラレータ」の総称として、最終的にはNVIDIAによる「GPU」[ 60] という独自の用語を採用した。
^ 自明な並列性とは、同時に実行する複数のタスク間に依存関係がなく、完全に独立しているために労せず簡単に並列化できる性質のことで、trivial parallelization または embarrassingly parallel などと呼ばれる[ 29] 。
