情報セキュリティばんざい！: 競合AIモデル徹底比較：Claudeティア（Mythos/Fable・Opus・Sonnet・Haiku）を基準軸とした2026年6月時点の整理

はじめに：評価の信頼性をどう読むか

本稿では Anthropic Claude の4階層（Mythos/Fable・Opus・Sonnet・Haiku）を共通の「ものさし」として、他社モデルを相対的に位置づける。ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。

✅ 独立評価あり：Artificial Analysis・SWE-rebench・LMArena等の第三者機関による評価
⚠️ ベンダー自己申告：各社公式ブログ・プレスリリースの値（条件・方法が非公開のケースあり）
❓ 評価データ不十分：独立評価が存在しないか入手できなかったモデル
（暫定）：未発売・β版・発表のみで本格評価未実施

⚠️ 重要：Claude Fable 5とMythos 5は2026年6月12日（ET 17:21）に米政府の輸出管理指令を受け、全顧客向けアクセスを停止中。他のClaudeモデルへの影響なし。Mythos/Fable級の対応関係は規制解除を前提とした参照軸として使用する。

Claude 4階層の定義（基準軸）

AA Intelligence Index（0〜100）＝Artificial Analysisによる独立評価合成スコア。SWE-bench VerifiedとSWE-bench Proは別指標のため直接比較不可。

ティア	モデル	価格（入力/出力 per 1M）	AA Index	主要ベンチマーク
⚠️ Mythos/Fable級（停止中）	Fable 5 （6/9リリース→6/12停止）	$10 / $50	65 ✅ 全モデル1位	SWE-bench Pro 80.3% ⚠️
🔵 Opus級	Opus 4.8 （2026/5/28）	$5 / $25 Fast: $10/$50	61 ✅	SWE-bench Verified 88.6% ⚠️ SWE-bench Pro 69.2% ⚠️ GPQA Diamond 93.6% ⚠️ GDPval-AA 1890 Elo ✅
🟢 Sonnet級	Sonnet 4.6 （2026/2/17）	$3 / $15	44 ✅ 非推論モード	SWE-bench Verified 79.6% ⚠️ OSWorld 72.5% ⚠️
⚪ Haiku級	Haiku 4.5 （2025/10）	$1 / $5	❓	高速・低コスト・ルーティング向け

カテゴリ1：フロンティアモデル（OpenAI・Google）

OpenAI

Claudeティア	モデル	価格（per 1M）	AA Index	特徴・ベンチマーク
Mythos/Fable級（暫定）	GPT-5.5 Pro 2026/4/24	$30 / $180	❓（未評価）	最高精度重視の最上位バリアント。FrontierMath Tier 4 39.6% ⚠️。独立評価データ不足のため（暫定）
Opus級	GPT-5.5 2026/4/23	$5 / $30	60 ✅ AA独立・3位	GPT-4.5以来の完全再訓練・ネイティブ全モーダル。Terminal-Bench 2.0 82.7% ⚠️でOpus 4.8を上回る。SWE-bench Pro 58.6% ⚠️はOpus 4.8（69.2%）より低い。コンテキスト1M
Sonnet〜Opus下位	GPT-5.4 2026/3	$2.50 / $15	57 ✅	GPT-5.5の前世代。コスト効率の良い汎用モデル。コンテキスト1M
Haiku級	GPT-5.4 mini	$0.75 / $4.50	❓	量産向けバランス型。コンテキスト400K
Haiku級以下	GPT-5.4 nano	$0.20 / $1.25	❓	分類・抽出・ルーティング専用。最廉価帯

📌 AA独立評価ではOpus 4.8（61）がGPT-5.5（60）を僅差でリード。GPT-5.5はTerminal-Bench 2.0（82.7% vs 74.6%）で優位。Opus 4.8はSWE-bench Pro（69.2% vs 58.6%）とGDPval-AA Elo（1890 vs 1769）でリード。API入力価格は$5/1Mで同一水準になった。

Google

Claudeティア	モデル	価格（per 1M）	AA Index	特徴・ベンチマーク
Mythos/Fable級（暫定・未発売）	Gemini 3.5 Pro 【6月下旬目標・未発売】	未発表	❓（未発売）	Google I/O 2026（5/19）発表のみ。コンテキスト2M・Deep Thinkモード搭載予定。全情報（暫定）
Opus級	Gemini 3.1 Pro 2026/2/19 Preview	$2 / $12 （200K超: $4/$18）	57 ✅	GPQA Diamond 94.3% ✅（AA独立） / HLE 44.4% ⚠️ / ARC-AGI-2 77.1% ⚠️。Deep Think（HLE 48.4%）はAI Ultra（約$250/月）限定。マルチモーダル最強クラス。コンテキスト1M（GA時2M）
Sonnet級コーディング/エージェントで 3.1 Pro超え	Gemini 3.5 Flash 2026/5/19 GA	$1.50 / $9 （キャッシュ: $0.15）	55 ✅	Terminal-Bench 2.1 76.2% ✅ / MCP Atlas 83.6% ✅ / MMMU-Pro 84% ✅（AA独立）。コーディング・エージェントで3.1 Proを上回る。約4倍高速。⚠️出力$9/Mは旧Gemini 3 Flash（$3/M）の3倍
Haiku〜Sonnet下位	Gemini 3 Flash 2025/12/17	$0.50 / $3	46 ✅	旧Geminiアプリ既定モデル。バランス型
Haiku級	Gemini 3.1 Flash-Lite	$0.25 / $1.50	❓	コスト効率重視。コンテキスト1M
Haiku級以下	Gemini 2.5 Flash-Lite	$0.10 / $0.40	❓	Gemini APIで最廉価。バッチ・大量分類向け

カテゴリ2：準フロンティアモデル

⚠️ 重要な格付け是正：Mistral Large 3（AA 23）とNova Premier（AA 19）は独立評価ではHaiku級相当。ベンダー資料から受ける「Sonnet相当」イメージとは大きく乖離する。価格・ライセンス・エコシステム統合で選ぶモデルであり、汎用インテリジェンス性能には期待値調整が必要。

Claudeティア	モデル（会社）	価格（per 1M）	AA Index	特徴・ベンチマーク
Opus下位（コスパ最高）	Grok 4.3（xAI） 2026/4/30	$1.25 / $2.50	53 ✅ Gemini 3.5 Flash（55）より低い	GPQA Diamond 90.1% ✅（AA独立）。169 t/sの高速。Opus 4.8比で入力1/4・出力1/10。コンテキスト1M（200K超は高単価）
Haiku〜Sonnet下位	Grok 4.1 Fast（xAI）	$0.20 / $0.50	❓	コンテキスト2M（競合最大クラス）。大量処理・ルーティング向け
⚠️ Haiku級相当（格付け要注意）	Mistral Large 3（Mistral AI） 2025/12/4	$0.50 / $1.50	23 ✅ ⚠️ Sonnet 4.6（44）の約半分	GPQA Diamond 約44% ✅（AA独立）。⚠️AA Indexは23でHaiku級相当。主な強みは価格（$0.50/$1.50）・EUベース・Apache 2.0・GDPR準拠。675B MoE（アクティブ41B）、コンテキスト262K
Haiku級（コード特化）	Codestral 2508（Mistral AI） 2025/8	$0.30 / $0.90	❓（汎用指標外）	FIM補完・IDE統合向け低レイテンシ。コンテキスト32K
（暫定）Sonnet級（RAG特化）	Command A（Cohere） 2025/3/13	$2.50 / $10	❓（AA未掲載）	オープンウェイト111B。A100/H100×2基で動作。エンタープライズRAG・引用付き応答・多言語に強み。汎用独立評価なしのため（暫定）
Haiku級（オンデバイス）（暫定）	Phi-4（Microsoft） 2024/12	Azure経由	❓（AA未評価）	14B密結合。GPQA Diamond 56.1% ⚠️ / HumanEval 82.6% ⚠️（Microsoft公式）。エッジ・オンデバイス向け
⚠️ Haiku下位〜Haiku級（格付け要注意）	Amazon Nova Premier（AWS） 2025/10/31	$2.50 / $12.50	19 ✅ ⚠️ 同価格帯中央値（22）以下	⚠️AA Index 19はHaiku下位〜Haiku相当。SWE-bench Verified 42.4% ⚠️（Amazon公式）。コンテキスト1M・蒸留教師機能がAWS環境での存在価値。$2.50/$12.50は性能対価格で割高
Haiku級	Nova Lite / Micro（AWS）	低価格帯	❓	Bedrock高速・低コスト。大量API呼び出し向け

カテゴリ3：中国系モデル

2026年最大の変化は「Opus級性能を1/10〜1/30の価格で提供する中国系モデルの台頭」。ただしArtificial Analysisはベンチマーク汚染（contamination）の懸念を指摘しており、独立評価スコアを優先して読む必要がある。

Claudeティア	モデル（会社）	価格（per 1M）	AA Index・ライセンス	特徴・ベンチマーク
Opus下位〜Sonnet上位（コスパ最高）	DeepSeek V4-Pro（DeepSeek） 2026/4/24	$0.435 / $0.87 （2026/5/22恒久値下げ）	52（Max）/ 50（High）✅ MIT	SWE-bench Verified 80.6% ⚠️（自己申告）。1.6T MoE/49Bアクティブ。出力単価でOpus 4.8の約1/29。AA Index 52はOpus 4.8（61）に対し9ポイント差。コンテキスト1M（出力384K）。⚠️ベンチマーク汚染の指摘あり
（暫定）Sonnet級	DeepSeek V4-Flash（DeepSeek） 2026/4/24	$0.14 / $0.28	❓ MIT	284B/13Bアクティブ。V4-Pro比で高速・低コスト。量産向け。独立評価データ不足のため（暫定）
Opus級（Gemini 3.1 Pro相当）	Qwen3.7 Max（Alibaba） 2026/5/19〜21	$1.25〜2.50 / $3.75〜7.50 （プロバイダーにより差異）	57 ✅ クローズド	GPQA Diamond 92.3〜92.4% ✅（AA独立）。AA Index 57でGPT-5.4・Gemini 3.1 Proと同水準。回答試行率が48%と低く難問棄権が多い。コンテキスト1M
（暫定）Sonnet下位〜Haiku上位	Qwen3-235B-A22B（Alibaba） 2025/4	$0.46 / $1.82	❓ Apache 2.0	ArenaHard 95.6% ⚠️ / Codeforces Elo 2056 ⚠️（Alibaba公式）。オープンウェイトMoE。自己ホスティング可能。AA独立評価なく（暫定）。コンテキスト131K
Sonnet上位〜Opus下位（エージェント特化）	Kimi K2.6（Moonshot AI） 2026/4/20	$0.60〜0.95 / $2.50〜4.00 （プロバイダーにより差異）	54 ✅ Modified MIT	AA Index 54（Grok 4.3の53を上回る） ✅。SWE-bench Pro 58.6% ⚠️（Moonshot公式）。1T MoE/32Bアクティブ。Agent Swarm（300サブエージェント・13時間連続稼働）。コンテキスト262K
（暫定）Sonnet下位〜Haiku上位	Doubao Seed 2.0 Pro（ByteDance） 2026/2/14	約$0.47 / $2.37	❓（AA未評価）クローズド	AIME 2025 98.3 ⚠️ / GPQA Diamond 88.9% ⚠️（ByteDance公式）。独立評価なく（暫定）。⚠️ByteDance製品は日本企業調達審査で懸念が挙がるケースあり。コンテキスト256K

⚠️ 中国系共通注意点：①AA社がSWE-bench等でベンチマーク汚染を指摘。SWE-rebenchで中国系モデルはスコアが下がるケースあり。②Kimi K2.6はAA独立評価済み（54）だがDoubao Seed 2.0 Proは未評価で信頼性に差あり。③ByteDance（TikTok関連）製品は日本企業調達審査で懸念事例あり。

カテゴリ4：日本国産モデル

汎用国際ベンチマークでは海外フロンティアに大差がある。2025年12月時点のNejumi Leaderboard 4（日本語総合）では上位50モデル中に国産LLMは1モデルのみ。ただし日本語精度・データ主権・国内サポート・政府調達適格性では独自ポジションを確立している。

デジタル庁は2026年3月6日、政府AI「源内」向けに15社応募から7モデルを選定。2026年8月試用開始・2027年1月評価公表・4月以降有償調達判断という工程。

源内選定7モデル（全て❓独立評価なし）

モデル（企業）	Claudeティア	規模・方式	特徴・注意点（ベンチマークは全て⚠️自社評価）
PLaMo 2.0 Prime（PFN） 2026/1	（❓）Haiku級	8B/31B フルスクラッチ	JFBenchでGPT-5.1相当（自社評価）。独自トークナイザでトークン効率45%改善。自治体150以上に導入実績
Takane 32B（富士通）	（❓）Haiku級	32B Cohere Command R+ベース共同開発	JGLUEで世界最高クラス（自社評価）。中央省庁実証で関連条項の80%超を特定。Cohere依存がソブリンAI観点での懸念点
tsuzumi 2（NTTデータ） 2025/10	（❓）Haiku級	30B フルスクラッチ	H100 GPU 1基で動作する軽量設計。医療・金融分野で実証知見あり
cotomi v3（NEC） 2025/7	（❓）Haiku級	非公開独自開発	コンテキスト128K（日本語換算約20万語）。MCP準拠・エージェント機能搭載。⚠️「cotomi Act」のWebArena 80.4%はv3本体ではなく別技術の条件付き評価値。自治体・金融・医療の実証知見が強み
ELYZA-JP-70B（KDDI・ELYZA）	（❓）Haiku〜Sonnet下位	70B Llamaベース日本語特化	医療特化版はIgakuQAで最高スコア（自社評価）。Llamaエコシステム互換性が強み
Sarashina2 mini（SoftBank）	（❓）Haiku級	460B MoEから蒸留フルスクラッチ基盤	H100×6,000台規模インフラで基盤開発。みずほ・中外製薬と特化モデル共同開発
CC Gov-LLM（カスタマークラウド）	（❓暫定）Haiku級	非公開	行政実務特化。ほぼ全情報が非公開

源内選定外：注目の高性能国産モデル

モデル（企業）	Claudeティア	規模・ライセンス	特徴・注意点（ベンチマークは全て⚠️自社評価）
PLaMo 3.0 Prime β（PFN） 2026/3/19発表・6月中旬商用化予定	（❓暫定）Haiku〜Sonnet下位	非公開（β版）フルスクラッチ	国産初の長考（Reasoning）対応LLM。NICTとの共同開発で日本語推論強化。β版段階のため独立評価なし。全情報（暫定）
Rakuten AI 3.0（楽天） 2026/3/17公開	（❓暫定）Haiku〜Sonnet下位	約700B MoE（有効約40B） Apache 2.0	日本語MT-Bench 8.88（GPT-4oの8.67超）（自社評価）。国内企業公開LLM最大規模。GENIAC第3期採択。商用・改変・再配布が完全自由。国際独立評価なし（暫定）
Stockmark-2-100B（ストックマーク） 2025/3公開・9月NVIDIA NIM対応	（❓）Haiku級	100B・1.5兆トークン事前学習 MIT	国産フルスクラッチオープンモデル中最高性能（自社比較）。ビジネスQ&AでGPT-4oを僅かに上回る（自社評価）。NVIDIA NIM対応。トヨタ・パナソニック等に導入実績あり

⚠️ 国産モデル共通注意事項：性能データは大半が自社評価値（⚠️）で、Artificial Analysis等の国際独立評価が存在するものはゼロ。「JGLUEで世界最高」「GPT-4超え」等は評価条件・比較対象バージョンに強く依存する。2027年1月の源内評価結果公表が、初めての政府公式横断比較データになる見込み。

まとめ：Claudeティア対応関係（独立評価ベース）

Claudeティア（AA Index目安）	フロンティア	準フロンティア・中国系・国産
⚠️ Mythos/Fable級（65・停止中）	GPT-5.5 Pro（暫定・❓） Gemini 3.5 Pro（暫定・未発売・❓）	—
🔵 Opus級（57〜61）	GPT-5.5（60 ✅） Gemini 3.1 Pro（57 ✅） GPT-5.4（57 ✅）	【中国系】Qwen3.7 Max（57 ✅）
🟢 Sonnet〜Opus下位（44〜56）	Gemini 3.5 Flash（55 ✅） Gemini 3 Flash（46 ✅）	【準】Grok 4.3（53 ✅）/ Command A（❓暫定）【中国】Kimi K2.6（54 ✅）/ DeepSeek V4-Pro（52 ✅） DeepSeek V4-Flash・Qwen3-235B・Doubao（全て❓暫定）【国産】到達なし
⚪ Haiku級（〜23）	GPT-5.4 mini・Gemini 3.1 Flash-Lite（共に❓）	【準】Mistral Large 3（23 ✅）/ Nova Premier（19 ✅）/ Phi-4（❓暫定）【国産】全モデル（PLaMo・Takane・tsuzumi・cotomi・ELYZA・Sarashina・Stockmark・Rakuten AI など）（全て❓）

用途別の選定指針（2026年6月・独立評価ベース）

最高難度・長時間自律タスク：Opus 4.8（AA 61・$5/$25）かGPT-5.5（AA 60・$5/$30）が実績ある最上位の選択肢（Fable 5/Mythos 5は停止中）。コスト感度が高ければDeepSeek V4-Pro（AA 52・$0.435/$0.87）が出力単価1/29でOpus相当に迫るが、ベンチマーク汚染の懸念とデータガバナンス要件の確認が必須。

本番デフォルト（Sonnet〜Opus下位帯域）：Qwen3.7 Max（AA 57・$1.25〜2.50）はOpus 4.8に迫る独立評価スコアで費用対効果が高い。Gemini 3.5 Flash（AA 55・$1.50/$9）はコーディング・エージェント特化で3.1 Proを上回る。Kimi K2.6（AA 54）はエージェントスワーム特化。Grok 4.3（AA 53）は低価格で高速。いずれも独立評価付き。Mistral Large 3（AA 23）はGDPR・EU適合性優先時の選択肢だが汎用性能には過度な期待は禁物。

日本語・データ主権・政府/規制業界：汎用タスクはClaude/GPT/Geminiが第一選択。日本語特化ならTakane 32B（日本語ベンチ実績・⚠️）またはPLaMo 3.0 Prime（商用化後・暫定）。オープンウェイト自社チューニングならRakuten AI 3.0（Apache 2.0・❓暫定）またはStockmark-2-100B（MIT・❓）。エンタープライズRAG・MCP連携はcotomi v3（NEC生態系）。2027年1月の源内評価結果公表が本格採用判断の最重要マイルストーン。

本記事のデータは2026年6月15〜16日時点の調査に基づく。AA Intelligence Index v4.0（2026年6月13日スナップショット：BenchLM.ai経由）を参照。最新価格・ベンチマークは各社公式ドキュメントで確認されたい。

情報セキュリティばんざい！

火曜日, 6月 16, 2026

競合AIモデル徹底比較：Claudeティア（Mythos/Fable・Opus・Sonnet・Haiku）を基準軸とした2026年6月時点の整理