月曜日, 4月 20, 2026

ガバメントAI「源内」でどの言語モデルが正式採用されるのか

 最近、以下の記事を書きました

ガバメントAI「源内」が変える行政の未来——2027年以降の採用LLM・自治体浸透・中長期展望を読み解く

今回は、各AIにどのモデルが正式採用されるかを予測してもらいます。

若干意見は割れているところもありますね。答え合わせは約1年後ですが、新モデルが出たり後から伏兵が現れたりするなどの可能性もあるかなと思うところです。


★Perplexity Proによる予測

tsuzumi 2とPLaMo 2.0 Primeを軸に、cotomi v3・Takane 32Bが業務別で並列採用されるシナリオが最も現実的な予測です。

各モデルの採用確率予測

採用確率モデル根拠
◎ 高tsuzumi 2(NTTデータ)1GPU動作・低コスト・公共向け実績、受注件数1,827件 digital.go
◎ 高PLaMo 2.0 Prime(PFN)源内に先行して「PLaMo翻訳」機能が組み込み済み digital-reclame.co、PLaMo 2.2でGPT-5.1相当に到達 digital
○ 中cotomi v3(NEC)GPT-4の5〜15倍の推論速度、128Kトークン・法令用語対応 watch.impress
○ 中Takane 32B(富士通)パブリックコメント業務の実証実験を既に特定省庁と完了 group
△ 条件付きLlama-3.1-ELYZA-JP-70B70Bの規模は優位だがMeta Llamaの派生ゆえライセンスリスク tech.preferred
△ 条件付きSarashina2 mini試用評価結果次第
△ 条件付きCC Gov-LLM閉域環境特化の限定用途には可能性あり


★Gemini Proによる予測

サマリ:単一モデル独占の否定と適材適所の現実

2027年度の「源内」有償調達において、単一モデルが全用途で独占的に採用される可能性は皆無だ。18万人の行政職員による日常利用に耐えうるSLA担保と、推論コスト(GPUリソース)の財政的制約から、軽量モデルを標準のRAG基盤とし、重量モデルを高度な生成タスクに限定する「マルチモデル・ルーティング」への移行が必然となる。

したがって、各モデルの「採用可能性」とは、このルーティングアーキテクチャ内で「自社の得意領域におけるメインモジュール」としてのポジションを獲得できるかの確率を指す。推論コストの低さと、官公庁での強固なSI実績を持つベンダーの軽量モデルがインフラ基盤として優位に立つ一方、汎用性の高い大型モデルは、コストに見合う圧倒的な付加価値の証明ができなければ淘汰される。


採用可能性評価表:国産LLM 7モデル

※採用可能性は、2027年度の本格導入において「特定用途の標準モデル」としてアーキテクチャに組み込まれる確率を合理的に評価したものだ。

ベンダー名モデル名採用可能性強み・評価理由(採用へのドライバー)課題・懸念点(採用への障壁)予想されるルーティング上の役割
NTTデータtsuzumi 2圧倒的な軽量性と低コスト推論。行政実務の大部分を占める定型的な文書検索・要約(RAG)において費用対効果が極めて高い。政府システムにおける強力なSI実績と保守体制も確実な後押しとなる。高度な論理推論や、ゼロベースでの複雑な文章生成能力では、大規模パラメータモデルに対して明確に劣る。日常業務のRAG、文書検索・要約のバックエンド(メインストリーム)
富士通Takane 32B32Bという絶妙なパラメータサイズによる、推論コストの抑制と性能のバランス。行政が求める閉域網・オンプレミス環境でのセキュアな稼働実績とチューニングノウハウに優れる。NTTデータ同様、汎用的な「ブレスト相手」としての魅力は薄く、業務特化の枠を出ない。他社の軽量モデルとの明確な差別化が必要。専門用語を含む行政文書RAG、機密データのバッチ処理
Preferred NetworksPLaMo 2.0 Prime中〜高ゼロから開発された純国産基盤モデルとしての高い技術力。日本独自の法制度や独特の文脈を要する高度な生成タスクにおいて、海外モデルの代替となる最有力候補。運用コスト。18万人規模が日常的に利用するには推論リソースを圧迫するため、用途を絞った呼び出し制御が必須となる。法令案のドラフト作成、複雑な翻訳、高度な文脈理解を伴う生成タスク
NECcotomi v3長いコンテキストウィンドウや外部ツール連携(MCP準拠など)のエージェント適性に優れており、複数ステップの業務自動化フローに組み込みやすい。基本的なRAG用途ではtsuzumiやTakaneと競合する。用途の差別化を明確に打ち出せない場合、「帯に短し襷に長し」となり埋没するリスクがある。外部データベースと連携する行政手続きの自動化エージェント
KDDI / ELYZALlama-3.1-ELYZA-JP-70Bグローバル標準であるLlamaアーキテクチャベースのため、既存のOSSツール群やエコシステムとの親和性が圧倒的に高く、開発・実装速度を上げやすい。70Bというサイズゆえの推論コストの重さ。また派生モデルである点が、政府が掲げる「長期的な自律性(技術主権)」の観点でどう評価されるか。既存のAIツール群との連携が求められる汎用タスク処理
ソフトバンクSarashina2 mini軽量モデル路線によるコスト効率の良さ。通信キャリアとして自社保有する大規模なクラウドインフラ網(計算資源)との相乗効果による価格競争力が見込める。行政特有の泥臭い要件定義やカスタマイズ対応において、NTTデータ・富士通・NECといった伝統的な政府系SIerの牙城を崩せるかが不透明。簡易的なテキスト処理、定型フォーマットへの変換作業
カスタマークラウドCC Gov-LLM低〜中スタートアップ発の行政特化型モデル。行政ドメインに対する強いフォーカスと、ニッチなチューニングの深さが最大の売り。大手SIerと比較した際、18万人規模での安定稼働(厳格なSLA担保)を支える企業体力とサポート体制に対する懸念が拭えない。特定の地方自治体連携や、極めて限定的な業務アプリの裏側


★Claude Proによる予測

サマリ: 7モデルのうち、2027年4月の正式採用(有償調達)は3〜4モデル程度に絞られると予想します。採用の決め手は①行政実証の具体的成果、②ガバメントクラウド上の安定稼働、③「AI主権」(国産独自開発性)、④コストパフォーマンス、の4軸です。PLaMo 2.0 Prime が現時点で唯一「源内稼働実績」を持つ点で頭一つ抜けており、Takane 32Bが行政実証成果の具体性で続きます。tsuzumi 2・cotomi v3 は企業信頼性と技術特性で有力圏内。ELYZA・Sarashina2 mini は採用されても補完的ポジションに留まる可能性が高く、CC Gov-LLM は厳しい戦いが予想されます。

採用確度スコア(各軸 0〜5点)
 = 5点満点中2点
最有力  有力  条件次第  困難
モデル判定行政
実証
日本語
性能
AI
主権
運用
コスト
採用確度採用・落選の主因
PLaMo 2.0 Prime
Preferred Networks
85%
源内での翻訳稼働実績が唯一の強み。フルスクラッチ独自開発でAI主権適合性が最高。日本語ベンチマーク世界最高クラス。弱点は企業規模と調達体制の薄さ。
Takane 32B
富士通
80%
省庁パブコメ12万字を10分・精度80%超で処理した行政実証が最大の武器。富士通の政府IT営業力も後押し。Cohere R+ベースのため「海外依存」批判がリスク要因。
tsuzumi 2
NTTデータ
70%
GPU1基で動作する軽量性が18万人規模の常用AIとして最適。公共・金融・医療強化済み。NTTグループの調達実績は強力。源内での固有実績はまだなく、実証結果次第。
cotomi v3
NEC
65%
30万字の長文処理は行政文書・法令対応で唯一無二の強み。敬語・専門用語への適合性も高い。NECの政府実績は厚い。ただし汎用チャット性能では他社に劣る可能性。
Llama-3.1-ELYZA-JP-70B
KDDI・ELYZA
45%
Llama派生モデルのためAI主権スコアが低く、Meta依存リスクを問われる。70BパラメータはGPUコスト高。KDDIのバックは政治的追い風だが、実証で性能が際立つかが鍵。
Sarashina2 mini
ソフトバンク
40%
4600億パラメータのSarashina2から蒸留した軽量版で技術力は高い。ただし行政実証実績がほぼゼロ。ソフトバンクの政府IT関係は通信インフラ中心で、AI調達では弱め。
CC Gov-LLM
カスタマークラウド
20%
大手が並ぶ中で選定されたこと自体は評価できる。しかし企業規模・知名度・実績で他社に大きく劣る。継続的なサポート体制への懸念が最大の障壁。特化用途なら残れる可能性あり。
※ 評価軸の定義:行政実証=源内での具体的な稼働・実証成果の有無、日本語性能=ベンチマーク・行政文書対応力、AI主権=独自開発度・海外依存リスクの低さ、運用コスト=GPU効率・スケール適性(18万人規模)。本予想は2026年4月時点の情報に基づく暫定評価。正式結果は2027年1月公表予定。