月曜日, 6月 22, 2026

Sakana Fugu 徹底調査レポート — マルチエージェント・オーケストレーションを「一つのモデル」として提供

はじめに:「一つのモデルがすべてを指揮する」時代の幕開け

2026年6月22日、東京を拠点とするAIスタートアップ Sakana AI が新製品「Sakana Fugu」の一般提供(GA)を開始しました。その副題は "One Model to Command Them All"——複数のフロンティアLLMを、7Bパラメータの小型「指揮者モデル」が動的に束ね、OpenAI互換の単一APIから「一つのモデル」のように使える、全く新しい形のAIプロダクトです。

Fuguが業界の注目を集めている最大の理由は、性能面だけではありません。発表文には、2026年6月12日に輸出規制を受けたAnthropicの最上位モデル「Claude Fable 5 / Mythos Preview」への言及があり、「単一ベンダー依存のリスクを回避する現実的な青写真」として明確に位置づけられています。

本記事では、Sakana Fuguの概要・技術アーキテクチャ・ベンチマーク・料金・注意点を網羅的に解説します。


Sakana AI とは:日本最大評価額のAIスタートアップ

まずSakana AI自体のプロフィールを整理しておきます。

  • 創業:2023年、東京
  • 創業者:David Ha(CEO:元Goldman Sachs→元Google Brain Japan→元Stability AI Head of Research)、Llion Jones(CTO:「Attention Is All You Need」共著者、元Google Brain)、Ren Ito(Chairman:元外務省・元Mercari)
  • 企業名の由来:「Sakana(魚)」=群れとして集合知を発揮する生物 → 自然から着想を得たAIという哲学を体現
  • 資金調達:シードラウンド $30M(2024年初) → シリーズA $214M(2024年9月、評価額$1.5B、日本初のAIユニコーン) → シリーズB $135M(2025年11月17日、評価額$2.65B≒約4,000億円)、累計約$379M(出典:PitchBook)
  • 主要投資家:Khosla Ventures・Lux Capital・NEA・Macquarie Capital・MUFG・In-Q-Tel(IQT)ほか
  • 代表的研究:Evolutionary Model Merge、AI Scientist、TinySwallow(日本語特化小型LLM)

シリーズBの評価額は未上場の日本スタートアップとして当時の最高水準を記録しており(出典:Nikkei)、金融・製造・防衛・政府向けのソブリンAIプラットフォームとして世界展開を目指しています。


Sakana Fugu とは何か:「マルチエージェントシステムを一つのモデルとして提供する」

Sakana Fuguは従来の「LLMルーター(if/else で呼び出しモデルを切り替えるだけ)」ではありません。Fugu自身が言語モデルであり、エージェントプール内の各LLMをいつ・どのように呼び出すかを、強化学習で「学習した」指揮者モデルです。

ユーザーから見ると、単一のエンドポイントにリクエストを送るだけです。Fuguは内部で:

  1. タスクを分析し、直接回答で十分か専門モデルチームが必要かを判断
  2. モデルに「Thinker(思考役)」「Worker(実行役)」「Verifier(検証役)」の役割を動的に割り当て
  3. エージェント間の通信・委譲・検証を管理
  4. 統合された単一の回答を返す

さらに、Fuguは自分自身を再帰的に呼び出すことができます。これにより、以前の出力を読み返して失敗を認識し、修正ワークフローを自律的に立ち上げる「テストタイム・スケーリング(推論時計算量の調整)」が再学習なしに実現されます。


技術的裏付け:ICLR 2026 採択の2論文

Fuguの基盤となる学術研究は、2026年のICLRに採択された2本の論文です。

① TRINITY(An Evolved LLM Coordinator, arXiv:2512.04695)
軽量な進化型コーディネーターが複数のLLMを複数ターンにわたって統括するアーキテクチャ。「Thinker」「Worker」「Verifier」の役割を適応的に割り当て、コーディング・数学・推論・知識の幅広いタスクに対応。最適化されるのは2万パラメータ未満の軽量ヘッドのみという効率性が特徴。

② Conductor(Learning to Orchestrate Agents in Natural Language, arXiv:2512.04388)
Qwen2.5-7Bをベースに強化学習で訓練した7Bモデル。ワーカー間の通信トポロジーを設計し、各ワーカー向けに焦点を絞ったプロンプトを生成。ランダム化されたエージェントプール(GPT-5・Claude Sonnet 4・Gemini 2.5 Pro+DeepSeek-R1-Distill-Qwen-32B・Gemma3-27B・Qwen3-32B等)で訓練することで、任意のモデル組み合わせへの推論時適応が可能。MoA(Mixture-of-Agents)が1問あたり平均11,203トークンを消費するのに対し、Conductorは平均1,820トークン・平均3ステップと大幅に効率的です。

商用版のFuguはこれらの研究をさらに発展させたものですが、7B Conductorモデル自体は一般公開されていません(「探索的なブループリント」と位置づけられています)。


2モデル構成:Fugu と Fugu Ultra

GA時点では、ワークロードに応じて選べる2モデルが提供されています。どちらもOpenAI互換APIから利用でき、既存のOpenAI SDKのエンドポイントを差し替えるだけで導入可能です。

モデル 特徴・用途 備考
Fugu 性能とレイテンシのバランス型。日常業務・コーディング・コードレビュー・チャットボット向け。データ/プライバシー/コンプライアンス要件がある場合、プールから特定モデルを除外可能 インタラクティブ利用に最適
Fugu Ultra 精度・深度優先。AIリサーチ・論文再現・サイバーセキュリティ分析・特許調査・データサイエンスなど高難度・多段階タスク向け。より深いエージェントプールを連携 モデルID: fugu-ultra-20260615

ベンチマーク:Fugu Ultra はどこまで強いか

以下はSakana AI公式発表(2026年6月22日)のベンチマーク比較表です。

【注意事項】① ベースライン(Opus 4.8・Gemini 3.1 Pro・GPT-5.5)のスコアは各プロバイダーの自己申告値。② SWE Bench Proのスキャフォールドは mini-swe-agent を使用(ベンダーのスキャフォールドとは異なる)。③ Fable 5・Mythos Previewは輸出規制で一般提供されておらず、Fuguのエージェントプールにも含まれていない。これらとの比較は「提供元公表値との対比」であり直接対決ではない。

ベンチマーク Fugu Fugu Ultra Claude Opus 4.8 Gemini 3.1 Pro GPT-5.5
SWE Bench Pro(コード) 59.0 73.7 ★ 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 ★ 74.6 70.3 78.2
LiveCodeBench 92.9 ★ 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 ★ 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 ★ 49.8 44.4 41.4
GPQA-Diamond(科学推論) 95.5 ★ 95.5 ★ 92.0 94.3 93.6
SciCode 60.1 ★ 58.7 53.5 58.9 56.1
MRCRv2(長文コンテキスト) 86.6 93.6 87.9 84.9 94.8 ★

★ = 各ベンチマークの最高スコア(Fable 5 / Mythos Preview の比較数値を除くと、Fugu / Fugu Ultra が多くの項目でトップ)

注目すべきは、「SciCode」では Fugu Ultra よりも標準 Fugu の方が高スコアという逆転現象が起きている点です。「複雑なオーケストレーションが常に有利とは限らない」という重要な示唆です。また MRCRv2(長文コンテキスト再現)では GPT-5.5 が首位を維持しています。


実世界タスクでのデモ結果

Sakana AIは、ベンチマーク以外にも6つの実世界タスクでのデモ結果を公開しています(いずれも社内実験・自己申告値)。

  • AutoResearch:単一H100 GPU・約14時間・123回の実験を自律実行。最良の BPB スコアを達成(Gemini 3.1 Pro / Opus 4.8 / GPT-5.5 を上回る)
  • ルービックキューブ:純Pythonでソルバーを生成し、300個のスクランブルを評価。Fugu Ultra は平均19.72手で最短(比較3モデルの1モデルはクラッシュ)
  • 仮名消息(江戸時代の手書き文書):1610年の書状の読み順推定タスク。Fugu Ultra の NED(正規化編集距離)は 0.80(比較3モデル中最高)。ただしこれは日本語生成能力ではなく、ビジョン+コード推論能力のデモ
  • 目隠しチェス:2100 Elo の Stockfish に対して勝利
  • CADメカニカルアイリス:機械設計タスクで単体フロンティアモデルを上回る
  • 金融時系列予測:50週のトレーディングバックテストで平均 +19.43%(比較モデル中最高)

料金体系

サブスクリプションと従量課金(API)の2本立てです。2026年7月末までに登録すると2か月目が無料(全プラン対象)。

プラン 月額 用途目安
Standard $20 低頻度のAPI利用・個人ワークフロー試用
Pro $100 コーディング・調査・分析セッション(週次定常利用)
Max $200 高頻度・長時間・高負荷ワークロード

従量課金(Fugu Ultra):入力 $5 / 1Mトークン、出力 $30 / 1Mトークン、キャッシュ入力 $0.5 / 1Mトークン(272Kトークン超の長文は入力$10・出力$45・キャッシュ$1)。

地域制限:EU/EEA は GDPR対応中のため現時点で利用不可。それ以外の国・地域(日本を含む)からは利用可能。


なぜ今Fuguなのか:輸出規制と「AIソブリンティ」

Sakana AIの発表文が明示的に言及しているのが、2026年6月12日に発動した米国の輸出規制によるAnthropicの Fable 5・Mythos Preview へのアクセス停止です。

CEOのDavid Haは「単一企業のモデルに国家インフラを依存させることは重大なリスク」と述べ、Fuguが提供するのは:

  • エージェントプール内のモデルをいつでも入れ替え可能な設計
  • 特定プロバイダーのモデルが利用不可になった場合も、別モデルへ自動ルーティング
  • 将来的にSakana自社モデルやオープンソースモデルをプールに追加予定

というものです。Fuguはオーケストレーション層という性質上、下層のAPIプロバイダー(OpenAI・Google・Anthropic等)に依存しています。ただし、その依存を単一ベンダーに固定しない点が、ソブリンAI戦略上の差別化ポイントとなっています。


業界の反応と課題・注意点

肯定的な評価:

  • ベータユーザーのSEは「他ツールが3件のところ、Fugu Ultraは20件超のバグを発見」と報告
  • 長時間セッションでのペルソナ安定性(エージェント製品で特に重要)が高評価
  • 特許調査を3〜4日から数時間に短縮
  • 「if/else ルーターではなく、強化学習で学習したクエリ列・役割・協調パターンを持つ」という技術的新規性

批判・課題:

  • ブラックボックス性:各クエリでどのモデルが使われたか非公開。エンタープライズには可観測性(Observability)が必要
  • ベンチマークの比較条件:ベースラインがプロバイダー自己申告値。Fable 5 / Mythos Previewはプールに含まれず直接比較でない
  • 利用規約の曖昧さ:クローズドモデルAPIを単一エンドポイントで束ねて再販することは、各プロバイダーの利用規約上グレーゾーンの可能性
  • コスト:Fugu Ultraの難タスクでは1リクエストあたり最大$10に達する場合も
  • 独立した第三者ベンチマーク:現時点では未実施

まとめ:オーケストレーション層が「製品」になる時代

Sakana Fuguの登場は、AI業界の競争軸が「より大きなモデルをゼロから訓練する」から「複数モデルをいかに賢く指揮するか」へとシフトしていることの象徴的な出来事です。

タイムラインを振り返ると:

  • 2025年12月:Trinity・Conductor 論文 arXiv 公開
  • 2026年4月:ベータ募集開始(約500名参加)
  • 2026年6月12日:米国輸出規制によりFable 5・Mythos Previewのアクセス停止
  • 2026年6月22日:Sakana Fugu GA(一般提供)開始

OpenAI互換APIのためエンドポイント差し替えで試用でき、2026年7月末まで2か月目無料というキャンペーンも実施中です。まず Standard $20/月で Fugu と Fugu Ultra を試し、自社ワークロードでの実効コストと品質を測定することをお勧めします。

日本拠点のAI企業が、世界のフロンティアモデルを「指揮する」製品を世界に提供する——Sakana AIのFuguは、単なる新モデルの投入ではなく、AIの次のパラダイムを示す試みといえるでしょう。


【参照】Sakana AI 公式リリース「Sakana Fugu: One Model to Command Them All」(2026年6月22日)、GIGAZINE、TechCrunch(Series B報道)、VentureBeat、OfficeChai、DigitalApplied ほか。ベンチマーク数値はSakana AI公式テクニカルレポートに基づく自社申告値。

0 件のコメント: