日曜日, 6月 07, 2026

再帰的自己改善(RSI)の現在地 AIがAIを作り始めた時代

再帰的自己改善(RSI)の現在地:AIがAIを作り始めた時代
🤖 AI Research Deep Dive

再帰的自己改善(RSI)の現在地
AIがAIを作り始めた時代

技術メカニズム・主要プレイヤー・AI安全性・AI for Science・タイムラインを一挙解説

2026年6月7日 | 情報セキュリティばんざい!
📌 TL;DR — この記事の3行まとめ
  • RSIは「SF」から「現在進行形の研究テーマ」に移行したが、完全な自律ループはまだ閉じていない。AlphaEvolve、Darwin Gödel Machine、AnthropicのClaudeによるコード生成など、ループの一部は確かに自動化されつつある。
  • 最も具体的な自己改善の兆候はコードと数学の領域に集中している。Anthropicは自社コードの80%超をClaudeが書くと公表し、DeepMindのAlphaEvolveは56年破られなかった行列乗算記録を更新、OpenAI・Googleは共にIMO(国際数学オリンピック)で金メダル相当を達成した。
  • 「知能爆発」を本気で警戒する専門家が急増している。AI研究者25人へのインタビュー調査では20人が「AI研究の自動化を最も深刻で緊急なリスクの一つ」と回答。一方で物理的制約から「爆発」より「逓減的改善」になるとの慎重論も根強い。

1 RSIとは何か? — 定義と概念的背景

再帰的自己改善(RSI: Recursive Self-Improvement)とは、AIが人間の介入なしに自分自身の能力を改善し、さらにその改善能力自体も改善することで、改善が指数関数的に加速するプロセスを指す。

起源 — I.J. Goodの「知能爆発」(1965年)

この発想の起源は、アラン・チューリングとともに働いたイギリスの数学者I.J. Goodが1965年に発表した論文「Speculations Concerning the First Ultraintelligent Machine」Advances in Computers, Vol.6)にある。彼の主張は現在も引用され続けている:

「超知能機械を、どんなに賢い人間のあらゆる知的活動をはるかに凌駕する機械と定義しよう。機械の設計はそうした知的活動の一つであるから、超知能機械はさらに優れた機械を設計できる。そうなれば間違いなく『知能爆発(intelligence explosion)』が起こり、人間の知性ははるか後方に置き去りにされるだろう。」 — I.J. Good, 1965

その後、Nick Bostromが著書『Superintelligence』(2014)でこの考えを形式化し、ある能力閾値を越えたシステムが人間の監督が事実上不可能になるほど急速に自己改善しうると論じた。

「弱いRSI」と「強いRSI」

実務上は区別が重要だ。

種別定義現状
弱いRSI 特定タスク(コード・数学など)での自己改善 ✅ すでに実現中
強いRSI システムが中核アーキテクチャや学習アルゴリズム自体を人間の指示なしに書き換える ⚠️ 未実現・論争中

IEEE Spectrum(2026年5月)の整理によれば、RSIは「多くの人にとって多くの意味を持つ」スペクトラムであり、「問題は自己改善が今日存在するかどうかではなく、ループのどれだけが実際に閉じたかである」。

2 技術的メカニズム — どうやって自己改善するか

現在の「自己改善」は主に4つの系統に分類できる。

① Constitutional AI / RLHF / RLAIF — AIがAIを批判する

Anthropicが2022年12月に提案したConstitutional AI(CAI、arXiv:2212.08073)は、人間が有害出力をラベル付けする代わりに、文章で書かれた「憲法(constitution)」の原則をモデル自身に与え、モデルが自らの応答を批判(critique)→修正(revise)するループで学習させる手法だ。これは「AIがAIを監督する」という弱いRSIの実装の一例と言える。

② Self-Play / Self-Refinement / Self-Critique — モデルが自分を評価する

Metaの「Self-Rewarding Language Models」や、NAACL 2025採択の日本発論文「Can Large Language Models Invent Algorithms to Improve Themselves?」(Ishibashi他、NAACL Long Papers 519)など、モデルが自らの出力を評価・改善する研究が急増している。特に後者では「LLMが人間の直感を超えるモデル改善技術を自律的に発明できる」と報告されている。

③ 進化的コード探索 — AlphaEvolveとDarwin Gödel Machine

最も具体的な成果が出ているのがこの系統だ。

🔬 ケーススタディ:AlphaEvolve(Google DeepMind、2025年5月)

GeminiモデルとLLMベースの自動評価器を組み合わせ、進化的フレームワークでアルゴリズムを改善するコーディングエージェント(白書:arXiv:2506.13131)。

  • 行列乗算の記録更新:4×4複素数行列の乗算を48回のスカラー乗算で実現し、シュトラッセンのアルゴリズム(1969年、49回)を56年ぶりに更新した(複素数体における初の改善)。
  • 50超の数学問題に適用:既知の最良解を約75%で再発見し、約20%のケースで従来の最良解を改善した。
  • Googleのデータセンター(Borg):継続的に世界全体の計算資源を平均0.7%回収するヒューリスティックを発見し、本番環境で1年以上稼働中。
  • Gemini訓練の高速化:重要な行列乗算カーネルを23%高速化し、エンドツーエンドで訓練時間を1%短縮。FlashAttentionカーネルは最大32.5%高速化した(別の成果)。
🔬 ケーススタディ:Darwin Gödel Machine(Sakana AI+UBC+Vector Institute、2025年5月)

Schmidhuberの理論的「Gödel Machine」を経験的アプローチに置き換えたもの(arXiv:2505.22954、ICLR 2026採択)。LLMベースのコーディングエージェントが自らのコードを書き換え、ダーウィン的進化(系統樹アーカイブから選択・変異・評価)で改善する。東京・Sakana AIの日本発プロジェクトだ。

  • SWE-benchで性能を20.0%→50.0%へ自律的に向上
  • Polyglotで14.2%→30.7%へ向上(全実験はサンドボックス・人間監督の安全策あり)

④ Chain-of-Thought / Test-Time Compute — 「考える時間」で改善する

o1/o3、Gemini Deep Think等の推論モデルは「考える時間」を増やすことで実行時に性能を上げる。Snell et al.(arXiv:2408.03314、2024)が示したように、テスト時計算をスケールさせる方が、モデルパラメータを増やすより効果的な場合がある。ただし「一度きりのトリック」という側面もあり、チップを増産しない限り繰り返せないという指摘もある。

3 現在の研究動向と主要プレイヤー

🇺🇸 Anthropic
  • Claude Code(2025年2月〜)
  • Constitutional AI / RLAIF
  • 機構的解釈可能性研究(Circuit Tracing)
  • 「When AI builds itself」(2026年6月4日)で内部データを異例の率直さで公開
🇺🇸 OpenAI
  • IMO 2025で実験的推論モデルが金メダル相当(35/42点)
  • 汎用RLとTest-Time Computeスケーリングの新手法
  • GPT-5系コーディングエージェント
🇬🇧 Google DeepMind
  • AlphaEvolve(進化的アルゴリズム探索)
  • Gemini Deep Think(IMO 2025金メダル相当)
  • AlphaProof+AlphaGeometry 2(IMO 2024銀メダル、Nature掲載)
  • AlphaFold 3(ノーベル化学賞)
🇺🇸 Meta
  • Self-Rewarding Language Models
  • 「Co-improvement(共改善)」アプローチを提唱
  • 人間をループに残す協調型RSIを推奨
🇯🇵 Sakana AI(東京)
  • AI Scientist(研究自動化)
  • Darwin Gödel Machine(SWE-bench 20%→50%)
  • 2億ドル調達済み
🇯🇵 日本の研究者
  • NAACL 2025でLLMによるアルゴリズム自律発明を報告(Ishibashi他)
  • 日本政府:AI Safety Institute(AISI)設置

Anthropicの「When AI builds itself」 — 内部データの詳細

2026年6月4日、AnthropicはMarina Favaro+Jack Clark共著でRSIへの自社進捗を異例の率直さで公開した。主要数値は以下のとおりだ。

80%超
2026年5月時点でAnthropicのコードベースにマージされるコードのうち、Claudeが書いた割合
(Claude Code投入前は「数%」)
2026年Q2の典型的エンジニアが2024年比でマージするコード量の倍率
(同社注:コード行数は生産性の過大評価)
52×
Claude Mythos Previewによる社内MLコード最適化ベンチの高速化倍率(Claude Opus 4:約3×)
(熟練人間研究者は4×に4〜8時間)
76%
最も開放的なタスクでのClaude成功率(2026年5月)、6か月で50ポイント上昇
Anthropic内部計測
⚠️ ファクトチェック注記:自己申告データの扱い

上記の数値はAnthropicの自己申告であり、独立検証されていない。同社自身が「コード行数は生産性の過大評価」「8倍は真の生産性向上の過大評価でほぼ確実」と注意書きを付けている。直近の非公開IPO申請と安全ブランドという利害も背景にある点を踏まえ、「Anthropicの主張」として参照すべきだ。

数学の達成 — IMO金メダルという節目

2025年7月のIMO(国際数学オリンピック)第66回大会では、歴史的な節目が訪れた。

システムスコア相当
2024年 AlphaProof+AlphaGeometry 2(DeepMind) 28/42点 銀メダル相当(Nature掲載:2025年11月)
2025年 Gemini Deep Think(DeepMind) 35/42点 🥇 金メダル相当(自然言語エンドツーエンド)
2025年 実験的推論LLM(OpenAI) 35/42点(5問/6問正解) 🥇 金メダル相当(ツールなし・自然言語)

特に重要なのはOpenAIが強調した点——「特定の形式数学システムではなく汎用RLとTest-Time Computeスケーリングを用いたLLMが数学を解いている」という事実だ。答えが形式検証できる数学・コードの領域でRSI的な自己改善が特に有効である理由がここにある。

4 AI安全性とリスク — RSIとAGIの関係

専門家の本音 — 25人インタビュー調査(2026年3月)

MATSプログラム(Berkeley)のField、Douglas、Kruegerによる「AI Researchers' Views on Automating AI R&D and Intelligence Explosions」(arXiv:2603.03338)は、2025年8〜9月にGoogle DeepMind・OpenAI・Anthropic・Meta・UC Berkeleyなど25人の研究者にインタビューした結果をまとめている(182人に依頼し25人が応諾)。

「AI研究の自動化を最も深刻かつ緊急なAIリスクの一つ」と回答
25人中20人(80%)
知能爆発を「AI研究自動化の自然な帰結」として議論に前向き
25人中23人(「RSI」という語を嫌った2名を除く全員)
高度なAIシステムは「内部留保され公衆の目に触れなくなる」と予想
明確に答えた20人のうち約半数(68%)。公開予想は20%

共著者のDavid Kruegerは「コードの99%がAIによって書かれることをAI開発一時停止のレッドラインの一つに挙げ、それは今まさに越えつつあるかもしれない」と述べている(IEEE Spectrum)。

Yoshua Bengioの「Scientist AI」提案

2018年チューリング賞受賞者・国際AI安全報告書議長のBengioは、2025年2月の論文「Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?」(arXiv:2502.15657、13名共著)で、自律的に計画・行動・目標追求する「エージェント的」AIが欺瞞や自己保存といった意図しない目標を追求しうる危険を論じた。代替案として、行動するのではなく「観測から世界を説明する」非エージェント的な「Scientist AI」を提案。2025年にはLawZeroを共同設立してその実現を追求している。

Anthropicの解釈可能性研究

Anthropicは「ニューラルネットワークを理解せずにその安全性を論じるのは極めて困難」という立場から、機構的解釈可能性(mechanistic interpretability)に注力している。2025年5月に回路追跡(circuit tracing)ツールをオープンソース化し、モデルが詩を書く際に韻を踏む単語を事前に選ぶ(計画する)、多段推論で中間表現を作るといった内部機構を可視化した。MIT Technology Reviewは機構的解釈可能性を2026年のブレークスルー技術の一つに選出している。

規制の動向

EU AI Act:累積訓練計算量が1025 FLOPsを超えるモデルを「システミックリスクを持つ汎用AI(GPAI)」と推定し、敵対的テスト・インシデント報告・エネルギー消費報告などを義務付ける。GPAI向け規定は2025年8月2日に発効した。

日本:英国を範とした「AI Safety Institute(AISI)」を設置し、フロンティアモデルの事前テストに注力している。


5 AI for Scienceとの関係

RSIの「現実的な成果」が最も分かりやすく出ているのが科学研究の自動化領域だ。

AlphaFold 3とノーベル賞

DeepMindのAlphaFold 3(2024年5月、Nature掲載)は拡散モデルアーキテクチャでタンパク質だけでなくリガンド・核酸・イオンなどほぼ全生体分子の構造と相互作用を予測できる。リガンド結合予測で従来のドッキング手法より50%精度向上。Demis HassabisとJohn JumperはAlphaFold開発でノーベル化学賞(2024年)を受賞した。Isomorphic Labsは2024年初頭にEli Lilly・Novartisと総額30億ドルの契約を締結し、創薬応用が現実化している。

GNoMEによる220万結晶の発見

DeepMind+Lawrence Berkeley(2023年11月、Nature)のGNoMEはグラフニューラルネットで220万の新結晶を予測した(人類の約800年分の知識に相当)。うち38万が安定とされ、Lawrence BerkeleyのA-Labでは17日間の自律ロボット実験で予測化合物の71%を合成することに成功した。

Sakana AIのAI Scientist

Sakana AI(東京)のAI Scientist(Lu et al.、arXiv:2408.06292)はアイデア生成→実験→論文執筆→査読まで研究ライフサイクル全体の自動化を目指す。AI Scientist-v2ではAIが完全自律で書いた論文がICLRワークショップの査読を通過し(3本投稿、1本採択)、2026年3月にはNature誌に手法が掲載された。

⚠️ AI Scientistの限界

独立評価(Beel et al.、arXiv:2502.14297)は、文献レビューが単純なキーワード検索に留まり、既知概念を「新規」と誤判定するなどの限界を指摘している。Nature掲載時も当初の主張は大幅に後退させられた。「完全自律の科学者」はまだ誇大な表現だ。

6 ビジネス・産業への影響

ソフトウェア開発の自動化

SWE-bench Verified(実際のGitHub issueを解決するベンチマーク)のスコアは急上昇を続けている:2023年10月は1.96%、2026年4月には約80%超に達した(Claude Opus 4.6、GPT-5.2系など)。重要な発見は「足場(scaffolding)設計がモデル選びと同じくらい効く」という点で、同じモデルでもエージェント枠組みによって大きな性能差が出る。

METRの「タスク長倍増」研究

METR(Beth Barnesが率いるAI安全研究機関)の研究「Measuring AI Ability to Complete Long Software Tasks」(Thomas Kwa他25名、arXiv:2503.14499、NeurIPS 2025採択)は、AIが50%の信頼度で完遂できるソフトウェアタスクの長さ(人間専門家の所要時間で測定)が「2019年以降約7か月ごとに倍増しており、2024年には傾向が加速した可能性がある」と示した。2026年1月の更新版ではこの倍増時間が約4.3か月に短縮し、進捗が約20%加速したと推定している。

7 今後の見通しとタイムライン

AGI予測の前倒しと揺り戻し

6年前には専門家の中央値予測が2060〜2070年だったが、急速に前倒しされた。Metaculusコミュニティ(約2000人)はAGIに2029年までに25%、2033年までに50%の確率を置く。ただし2025年に一度短くなった予測は後半に揺り戻し、Metaculusの「強いAGI」予測は2031年7月から2033年11月へ後退している。

  • Dario Amodei(Anthropic CEO、2026年ダボス会議):「数年内、おそらく2027年までに」
  • Demis Hassabis(DeepMind CEO):「2030年までに約50%」
  • 2778人サーベイ(Grace et al., 2023):高度機械知能の50%確率は2040年

CEO層は2027〜2028年と強気な一方、学術研究者の中央値は2040年と大きく乖離している点に注意が必要だ。

2025–27
弱いRSIの深化 コード生成の自律性向上(SWE-bench 80%超)、数学IMO金の定着、AlphaEvolve型の科学的発見拡大。AI R&Dの「雑務」自動化が進む。
2027–30
正念場(80,000 Hours分析) 計算資源・電力・チップの拡大が頭打ちになり始める時期。RSIが本格化するか逓減するかが分かれる。
2030年以降
知能爆発シナリオの現実性は依然論争的 物理的制約(データセンター建設・発電・金属採掘)が完全なRSIの障壁になるとの慎重論も根強い。

「爆発」か「逓減」か — 二大シナリオ

シナリオ主な論者根拠
知能爆発(Hard Takeoff) Krueger、Clune、Altman、一部のAnthropicチーム タスク長の倍増ペース加速、コード比率80%超、IMO金
逓減的自己改善(Lossy Self-Improvement) Nathan Lambert、Epoch AI周辺(Erdil & Barnett)、Dean Ball 計算資源・データ・電力・物理インフラの制約、知識の分散性

8 まとめ — 技術者・研究者として何を見るべきか

RSIを「来るか来ないか」の二択ではなく「ループのどこが閉じたか」のスペクトラムで捉えることが重要だ。以下、注視すべきポイントをまとめる。

📊 注視すべき閾値・ベンチマーク
  • METRのタスク長倍増時間:7か月→4.3か月への加速がさらに進むか(超指数化)、頭打ちになるか
  • SWE-bench Verified/Pro:80%台からの伸び。特に難問サブセットでの進捗
  • AnthropicのClaudeコード比率:80%超→Kruegerの「99%」レッドラインまでの距離
  • 形式証明可能な数学・科学問題:IMO以降の自己改善ループの一般化
「我々はまだそこ(RSI)には到達していない。RSIは不可避でもない。だが、ほとんどの組織が備えているより早く来るかもしれない。」 — Anthropic Institute「When AI builds itself」(2026年6月4日)

現状の最大の課題は「ループのどこが閉じているか」を客観的に測る指標の欠如だ。Anthropicの数値は自己申告、AI Scientistは独立評価で後退、専門家予測は2040年台まで分散する。この不確実性を直視しながら、METRのタスク長倍増や解釈可能性ツールの進展を地道に追い続けることが、AI時代に一番大切なリテラシーかもしれない。

📌 ファクトチェック・注記

  • AlphaEvolveの行列乗算:「56年ぶりの記録更新」は複素数体上での話。2022年のAlphaTensor(DeepMind、Nature掲載)は有限体(mod 2)で47回を達成しており、体の条件が異なる。AlphaEvolveは複素数体での最初の改善(49回→48回)。
  • Anthropicの自己申告数値:コード80%超・8倍・52倍などは独立検証されていない。同社自身が過大評価の可能性を注記している。
  • IMO 2025スコア:OpenAIとGemini Deep Think両社が35/42点(金メダル相当)を達成した。AlphaProof+AG2はIMO 2024での銀メダル(28点)、論文はNature2025年11月掲載。
  • AI Scientist:Nature掲載時に当初の主張が後退。独立評価(Beel et al.)は文献レビュー・新規性判定の弱さを指摘。
  • AGIタイムライン:Metaculus等の予測は2025年に一度前倒し、後半に揺り戻した。点推定として鵜呑みにせずシナリオ構築の道具として使うこと(RAND推奨)。
  • 本記事は2026年6月時点の情報を基にしている。AI分野は急速に変化するため、モデル名・数値は陳腐化する可能性がある。

0 件のコメント: