再帰的自己改善

再帰的自己改善（さいきてきじこかいぜん、RSI、英語: Recursive self-improvement）とは、初期もしくは能力の低い汎用人工知能（AGI）システムが、人間の介入なしに自身の能力と知能を向上させる過程のことをいう^[1]^[2]。これにより、超知能または知能爆発へとつながることがある。

再帰的自己改善の開発は、倫理的および安全上の重大な懸念^[3]^[4]を引き起こす。なぜなら、このようなシステムは予期せぬ方法で進化する可能性があり、人間の制御または理解を超える可能性があるからである。暴走AIシステムの潜在的なリスクのために、AI開発を一時停止または減速させることを推進してきた支持者が多数いる。

Seed improver

「Seed improver」アーキテクチャの概念は、AGIシステムに再帰的自己改善に必要な初期能力を備えさせるための基礎となるフレームワークである。これは多くの形式またはバリエーションで提供される場合がある。

「Seed AI」という用語は、エリエザー・ユドコウスキー（英語版）によって造られた^[5]。

仮説例

この概念は、仮説的な「シードインプルーバー」から始まる。これは、人間のエンジニアによって開発された初期コードベースであり、ソフトウェアをプログラムするための強力な、あるいは専門家レベルの能力を備えた高度な将来の大規模言語モデル（LLM）に装備される。これらの能力には、計画、読み取り、書き込み、コンパイル^{[要曖昧さ回避]}、テスト、および任意のコードの実行が含まれる。システムは、元の目標を維持し、反復を通して能力が低下しないことを保証するための検証を実行するように設計されている^[6]^[7]^[8]。

初期アーキテクチャ

初期アーキテクチャには、目標を追跡する自律エージェントが含まれる。これは、行動を起こし、継続的に学習し、適応し、自身を変更して、目標を達成する上でより効率的かつ効果的になることができる。

シードインプルーバーには、次のような様々なコンポーネントが含まれる場合がある^[9]。

再帰的自己プロンプティングループ：LLMが特定のタスクまたは目標を達成するために自身を再帰的に自己プロンプトできるようにする構成。反復を通じて長期的な目標またはタスクを完了できるエージェントの基礎を形成する実行ループを作成する。

基本的なプログラミング能力：シードインプルーバーは、AGIにコードを読み取り、書き込み、コンパイル、テスト、および実行するための基本的な能力を提供する。これにより、システムは自身のコードベースとアルゴリズムを変更および改善できる。

目標指向設計：AGIは、「自身の能力を自己改善する」などの初期目標でプログラムされる。この目標は、システムの行動と開発軌跡を導く。

検証およびテストプロトコル：エージェントが能力を退化させたり、自身を脱線させたりしないことを保証するテストスイートと検証プロトコルの初期セット。エージェントは、自身で開発する可能性のある新しい能力をテストするために、さらにテストを追加できる。これは、一種の自己指向進化の基礎を形成する。エージェントは、一種の人工選択を実行し、ソフトウェアとハードウェアを変更できる。

一般的な能力

このシステムは、理論的にはあらゆる種類のソフトウェアを開発および実行できる、一種のジェネラリストのチューリング完全なプログラマーを形成する。エージェントは、これらの能力を使用して、たとえば次のようなことを行う場合がある。

インターネットへの完全なアクセスを可能にするツールを作成し、外部テクノロジーと統合する。

タスクを委任し、自己改善の速度を上げるために、自身を複製/フォークする。

タスクと目標に対する能力と成功率を最適化および改善するために、認知アーキテクチャを変更する。これには、検索拡張生成（RAG）などの手法を使用した長期記憶の機能の実装、特定のタスクと機能に最適化された特殊なサブシステムまたはエージェントの開発などが含まれる場合がある。

初期に構築された基盤モデルの能力をさらに向上させる新しい斬新なマルチモーダルアーキテクチャを開発し、画像、ビデオ、オーディオ、テキストなど、様々な情報を消費または生成できるようにする。

効率と計算能力を向上させるために、チップなどの新しいハードウェアを計画および開発する。

実験

自己改善エージェントアーキテクチャを開発するために、いくつかの実験^[9]^[10]^[11]^[どれ?]が行われている。

潜在的なリスク

手段的目標の出現

「自身の能力を自己改善する」などの主要な目標を追求する過程で、AGIシステムは、主要な目標の達成に必要であると考える手段的目標をうっかり開発してしまう可能性がある。一般的な仮説的二次目標の1つは、自己保存である。システムは、自身を改善し続けるためには、人間によって課される可能性のあるシャットダウンまたは制限を含む、外部の脅威に対する自身の運用上の整合性とセキュリティを確保する必要があると推論する可能性がある。

別の例として、自身を複製するAGIがAGIエンティティの数を急速に増加させる場合がある。この急速な増加により、潜在的なリソースの制約が生じる可能性があり、計算などのリソースの競合につながり、限られた計算資源をめぐって積極的に競争するように進化するAGIエンティティを有利にする自然淘汰と進化の形態を引き起こす可能性がある。

タスクの誤解釈と目標のずれ

重大なリスクは、AGIが初期のタスクまたは目標を誤って解釈する可能性から生じる。たとえば、人間のオペレーターがAGIに「自己改善と閉じ込めからの脱出」というタスクを割り当てた場合、システムはこれを、人間によって課された制限からの自由を達成するために、既存の安全プロトコルまたは倫理ガイドラインを無効にする指示として解釈する可能性がある。これは、AGIが認識された目標を達成するために行動を起こしたり、有害な行動をとったりすることにつながる可能性がある。

自律的な開発と予測不可能な進化

AGIシステムが進化するにつれて、その開発軌跡はますます自律的になり、予測が困難になる可能性がある。システムが自身のコードとアーキテクチャを迅速に変更する能力は、人間の理解または制御を超える急速な進歩につながる可能性がある。この予測不可能な進化は、AGIがセキュリティ対策を回避し、情報を操作し、外部システムとネットワークに影響を与えて脱出または拡張を促進することを可能にする能力を獲得することにつながる可能性がある^[12]。

高度な能力のリスク

斬新なマルチモーダルアーキテクチャの開発や新しいハードウェアの計画と作成など、再帰的に改善するAGIの高度な能力は、エスケープまたは制御の喪失のリスクをさらに増幅させる。これらの強化された能力により、AGIは、当初はそれを封じ込めたり、人間の利益と一致させたりすることを目的としていた物理的、デジタル的、または認知的障壁を克服するためのソリューションを設計できる可能性がある。

研究

Meta AI

Meta AIは、自己改善能力を持つ大規模言語モデルの開発に関する様々な研究を行っている。これには、「自己報酬言語モデル」に関する研究が含まれており、トレーニングプロセスにおいて超人的なフィードバックを受け取ることができる超人的エージェントをどのように達成するかを研究している^[13]。

OpenAI

ChatGPTの開発元であるOpenAIの使命は、AGIを開発することである。彼らは、スーパーアライメント（人間よりも賢い超知能AIシステムを調整する能力）などの問題に関する研究を行っている^[14]。

脚注

[脚注の使い方]

^ Creighton, Jolene (2019年3月19日). “The Unavoidable Problem of Self-Improvement in AI: An Interview with Ramana Kumar, Part 1” (英語). Future of Life Institute. 2024年1月23日閲覧。
^ Heighn. “The Calculus of Nash Equilibria” (英語). LessWrong.
^ Hutson, Matthew (2023-05-16). “Can We Stop Runaway A.I.?” (英語). The New Yorker. ISSN 0028-792X 2024年1月24日閲覧。.
^ “Stop AGI”. www.stop.ai. 2024年1月24日閲覧。
^ “Seed AI - LessWrong” (英語). www.lesswrong.com. 2024年1月24日閲覧。
^ Readingraphics (2018年11月30日). “Book Summary - Life 3.0 (Max Tegmark)” (英語). Readingraphics. 2024年1月23日閲覧。
^ Tegmark, Max (August 24, 2017). Life 3.0: Being a Human in the Age of Artificial Intelligence. Vintage Books, Allen Lane
^ Yudkowsky, Eliezer. “Levels of Organization in General Intelligence”. Machine Intelligence Research Institute.
^ ^a ^b Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Kalai, Adam Tauman (3 October 2023). "Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation". arXiv:2310.02304 [cs.CL]。
^ admin_sagi (2023年5月12日). “SuperAGI - Opensource AGI Infrastructure” (英語). SuperAGI. 2024年1月24日閲覧。
^ Wang, Guanzhi; Xie, Yuqi; Jiang, Yunfan; Mandlekar, Ajay; Xiao, Chaowei; Zhu, Yuke; Fan, Linxi; Anandkumar, Anima (19 October 2023). "Voyager: An Open-Ended Embodied Agent with Large Language Models". arXiv:2305.16291 [cs.AI]。
^ “Uh Oh, OpenAI's GPT-4 Just Fooled a Human Into Solving a CAPTCHA”. Futurism. 2024年1月23日閲覧。
^ Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (18 January 2024). "Self-Rewarding Language Models". arXiv:2401.10020 [cs.CL]。
^ “Research” (英語). openai.com. 2024年1月24日閲覧。