火曜日, 6月 16, 2026

競合AIモデル徹底比較:Claudeティア(Mythos/Fable・Opus・Sonnet・Haiku)を基準軸とした2026年6月時点の整理

はじめに:評価の信頼性をどう読むか

本稿では Anthropic Claude の4階層(Mythos/Fable・Opus・Sonnet・Haiku)を共通の「ものさし」として、他社モデルを相対的に位置づける。ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。

独立評価あり:Artificial Analysis・SWE-rebench・LMArena等の第三者機関による評価
⚠️ ベンダー自己申告:各社公式ブログ・プレスリリースの値(条件・方法が非公開のケースあり)
評価データ不十分:独立評価が存在しないか入手できなかったモデル
(暫定):未発売・β版・発表のみで本格評価未実施
⚠️ 重要:Claude Fable 5とMythos 5は2026年6月12日(ET 17:21)に米政府の輸出管理指令を受け、全顧客向けアクセスを停止中。他のClaudeモデルへの影響なし。Mythos/Fable級の対応関係は規制解除を前提とした参照軸として使用する。

Claude 4階層の定義(基準軸)

AA Intelligence Index(0〜100)=Artificial Analysisによる独立評価合成スコア。SWE-bench VerifiedとSWE-bench Proは別指標のため直接比較不可。

ティア モデル 価格(入力/出力 per 1M) AA Index 主要ベンチマーク
⚠️ Mythos/Fable級
(停止中)
Fable 5
(6/9リリース→6/12停止)
$10 / $50 65
全モデル1位
SWE-bench Pro 80.3% ⚠️
🔵 Opus級 Opus 4.8
(2026/5/28)
$5 / $25
Fast: $10/$50
61 SWE-bench Verified 88.6% ⚠️
SWE-bench Pro 69.2% ⚠️
GPQA Diamond 93.6% ⚠️
GDPval-AA 1890 Elo ✅
🟢 Sonnet級 Sonnet 4.6
(2026/2/17)
$3 / $15 44
非推論モード
SWE-bench Verified 79.6% ⚠️
OSWorld 72.5% ⚠️
⚪ Haiku級 Haiku 4.5
(2025/10)
$1 / $5 高速・低コスト・ルーティング向け

カテゴリ1:フロンティアモデル(OpenAI・Google)

OpenAI

Claudeティア モデル 価格(per 1M) AA Index 特徴・ベンチマーク
Mythos/Fable級
(暫定)
GPT-5.5 Pro
2026/4/24
$30 / $180 ❓(未評価) 最高精度重視の最上位バリアント。FrontierMath Tier 4 39.6% ⚠️。独立評価データ不足のため(暫定)
Opus級 GPT-5.5
2026/4/23
$5 / $30 60
AA独立・3位
GPT-4.5以来の完全再訓練・ネイティブ全モーダル。Terminal-Bench 2.0 82.7% ⚠️でOpus 4.8を上回る。SWE-bench Pro 58.6% ⚠️はOpus 4.8(69.2%)より低い。コンテキスト1M
Sonnet〜Opus下位 GPT-5.4
2026/3
$2.50 / $15 57 GPT-5.5の前世代。コスト効率の良い汎用モデル。コンテキスト1M
Haiku級 GPT-5.4 mini $0.75 / $4.50 量産向けバランス型。コンテキスト400K
Haiku級以下 GPT-5.4 nano $0.20 / $1.25 分類・抽出・ルーティング専用。最廉価帯
📌 AA独立評価ではOpus 4.8(61)がGPT-5.5(60)を僅差でリード。GPT-5.5はTerminal-Bench 2.0(82.7% vs 74.6%)で優位。Opus 4.8はSWE-bench Pro(69.2% vs 58.6%)とGDPval-AA Elo(1890 vs 1769)でリード。API入力価格は$5/1Mで同一水準になった。

Google

Claudeティア モデル 価格(per 1M) AA Index 特徴・ベンチマーク
Mythos/Fable級
(暫定・未発売)
Gemini 3.5 Pro
【6月下旬目標・未発売】
未発表 ❓(未発売) Google I/O 2026(5/19)発表のみ。コンテキスト2M・Deep Thinkモード搭載予定。全情報(暫定)
Opus級 Gemini 3.1 Pro
2026/2/19 Preview
$2 / $12
(200K超: $4/$18)
57 GPQA Diamond 94.3% ✅(AA独立) / HLE 44.4% ⚠️ / ARC-AGI-2 77.1% ⚠️。Deep Think(HLE 48.4%)はAI Ultra(約$250/月)限定。マルチモーダル最強クラス。コンテキスト1M(GA時2M)
Sonnet級
コーディング/エージェントで
3.1 Pro超え
Gemini 3.5 Flash
2026/5/19 GA
$1.50 / $9
(キャッシュ: $0.15)
55 Terminal-Bench 2.1 76.2% ✅ / MCP Atlas 83.6% ✅ / MMMU-Pro 84% ✅(AA独立)。コーディング・エージェントで3.1 Proを上回る。約4倍高速。⚠️出力$9/Mは旧Gemini 3 Flash($3/M)の3倍
Haiku〜Sonnet下位 Gemini 3 Flash
2025/12/17
$0.50 / $3 46 旧Geminiアプリ既定モデル。バランス型
Haiku級 Gemini 3.1 Flash-Lite $0.25 / $1.50 コスト効率重視。コンテキスト1M
Haiku級以下 Gemini 2.5 Flash-Lite $0.10 / $0.40 Gemini APIで最廉価。バッチ・大量分類向け

カテゴリ2:準フロンティアモデル

⚠️ 重要な格付け是正:Mistral Large 3(AA 23)とNova Premier(AA 19)は独立評価ではHaiku級相当。ベンダー資料から受ける「Sonnet相当」イメージとは大きく乖離する。価格・ライセンス・エコシステム統合で選ぶモデルであり、汎用インテリジェンス性能には期待値調整が必要。
Claudeティア モデル(会社) 価格(per 1M) AA Index 特徴・ベンチマーク
Opus下位
(コスパ最高)
Grok 4.3(xAI)
2026/4/30
$1.25 / $2.50 53
Gemini 3.5 Flash(55)より低い
GPQA Diamond 90.1% ✅(AA独立)。169 t/sの高速。Opus 4.8比で入力1/4・出力1/10。コンテキスト1M(200K超は高単価)
Haiku〜Sonnet下位 Grok 4.1 Fast(xAI) $0.20 / $0.50 コンテキスト2M(競合最大クラス)。大量処理・ルーティング向け
⚠️ Haiku級相当
(格付け要注意)
Mistral Large 3(Mistral AI)
2025/12/4
$0.50 / $1.50 23
⚠️ Sonnet 4.6(44)の約半分
GPQA Diamond 約44% ✅(AA独立)。⚠️AA Indexは23でHaiku級相当。主な強みは価格($0.50/$1.50)・EUベース・Apache 2.0・GDPR準拠。675B MoE(アクティブ41B)、コンテキスト262K
Haiku級
(コード特化)
Codestral 2508(Mistral AI)
2025/8
$0.30 / $0.90 ❓(汎用指標外) FIM補完・IDE統合向け低レイテンシ。コンテキスト32K
(暫定)Sonnet級
(RAG特化)
Command A(Cohere)
2025/3/13
$2.50 / $10 ❓(AA未掲載) オープンウェイト111B。A100/H100×2基で動作。エンタープライズRAG・引用付き応答・多言語に強み。汎用独立評価なしのため(暫定)
Haiku級
(オンデバイス)(暫定)
Phi-4(Microsoft)
2024/12
Azure経由 ❓(AA未評価) 14B密結合。GPQA Diamond 56.1% ⚠️ / HumanEval 82.6% ⚠️(Microsoft公式)。エッジ・オンデバイス向け
⚠️ Haiku下位〜Haiku級
(格付け要注意)
Amazon Nova Premier(AWS)
2025/10/31
$2.50 / $12.50 19
⚠️ 同価格帯中央値(22)以下
⚠️AA Index 19はHaiku下位〜Haiku相当。SWE-bench Verified 42.4% ⚠️(Amazon公式)。コンテキスト1M・蒸留教師機能がAWS環境での存在価値。$2.50/$12.50は性能対価格で割高
Haiku級 Nova Lite / Micro(AWS) 低価格帯 Bedrock高速・低コスト。大量API呼び出し向け

カテゴリ3:中国系モデル

2026年最大の変化は「Opus級性能を1/10〜1/30の価格で提供する中国系モデルの台頭」。ただしArtificial Analysisはベンチマーク汚染(contamination)の懸念を指摘しており、独立評価スコアを優先して読む必要がある。

Claudeティア モデル(会社) 価格(per 1M) AA Index・ライセンス 特徴・ベンチマーク
Opus下位〜Sonnet上位
(コスパ最高)
DeepSeek V4-Pro(DeepSeek)
2026/4/24
$0.435 / $0.87
(2026/5/22恒久値下げ)
52(Max)/ 50(High)✅
MIT
SWE-bench Verified 80.6% ⚠️(自己申告)。1.6T MoE/49Bアクティブ。出力単価でOpus 4.8の約1/29。AA Index 52はOpus 4.8(61)に対し9ポイント差。コンテキスト1M(出力384K)。⚠️ベンチマーク汚染の指摘あり
(暫定)Sonnet級 DeepSeek V4-Flash(DeepSeek)
2026/4/24
$0.14 / $0.28
MIT
284B/13Bアクティブ。V4-Pro比で高速・低コスト。量産向け。独立評価データ不足のため(暫定)
Opus級
(Gemini 3.1 Pro相当)
Qwen3.7 Max(Alibaba)
2026/5/19〜21
$1.25〜2.50 / $3.75〜7.50
(プロバイダーにより差異)
57
クローズド
GPQA Diamond 92.3〜92.4% ✅(AA独立)。AA Index 57でGPT-5.4・Gemini 3.1 Proと同水準。回答試行率が48%と低く難問棄権が多い。コンテキスト1M
(暫定)Sonnet下位〜Haiku上位 Qwen3-235B-A22B(Alibaba)
2025/4
$0.46 / $1.82
Apache 2.0
ArenaHard 95.6% ⚠️ / Codeforces Elo 2056 ⚠️(Alibaba公式)。オープンウェイトMoE。自己ホスティング可能。AA独立評価なく(暫定)。コンテキスト131K
Sonnet上位〜Opus下位
(エージェント特化)
Kimi K2.6(Moonshot AI)
2026/4/20
$0.60〜0.95 / $2.50〜4.00
(プロバイダーにより差異)
54
Modified MIT
AA Index 54(Grok 4.3の53を上回る) ✅。SWE-bench Pro 58.6% ⚠️(Moonshot公式)。1T MoE/32Bアクティブ。Agent Swarm(300サブエージェント・13時間連続稼働)。コンテキスト262K
(暫定)Sonnet下位〜Haiku上位 Doubao Seed 2.0 Pro(ByteDance)
2026/2/14
約$0.47 / $2.37 ❓(AA未評価)
クローズド
AIME 2025 98.3 ⚠️ / GPQA Diamond 88.9% ⚠️(ByteDance公式)。独立評価なく(暫定)。⚠️ByteDance製品は日本企業調達審査で懸念が挙がるケースあり。コンテキスト256K
⚠️ 中国系共通注意点:①AA社がSWE-bench等でベンチマーク汚染を指摘。SWE-rebenchで中国系モデルはスコアが下がるケースあり。②Kimi K2.6はAA独立評価済み(54)だがDoubao Seed 2.0 Proは未評価で信頼性に差あり。③ByteDance(TikTok関連)製品は日本企業調達審査で懸念事例あり。

カテゴリ4:日本国産モデル

汎用国際ベンチマークでは海外フロンティアに大差がある。2025年12月時点のNejumi Leaderboard 4(日本語総合)では上位50モデル中に国産LLMは1モデルのみ。ただし日本語精度・データ主権・国内サポート・政府調達適格性では独自ポジションを確立している。

デジタル庁は2026年3月6日、政府AI「源内」向けに15社応募から7モデルを選定。2026年8月試用開始・2027年1月評価公表・4月以降有償調達判断という工程。

源内選定7モデル(全て❓独立評価なし)

モデル(企業) Claudeティア 規模・方式 特徴・注意点(ベンチマークは全て⚠️自社評価)
PLaMo 2.0 Prime(PFN)
2026/1
(❓)Haiku級 8B/31B
フルスクラッチ
JFBenchでGPT-5.1相当(自社評価)。独自トークナイザでトークン効率45%改善。自治体150以上に導入実績
Takane 32B(富士通) (❓)Haiku級 32B
Cohere Command R+ベース共同開発
JGLUEで世界最高クラス(自社評価)。中央省庁実証で関連条項の80%超を特定。Cohere依存がソブリンAI観点での懸念点
tsuzumi 2(NTTデータ)
2025/10
(❓)Haiku級 30B
フルスクラッチ
H100 GPU 1基で動作する軽量設計。医療・金融分野で実証知見あり
cotomi v3(NEC)
2025/7
(❓)Haiku級 非公開
独自開発
コンテキスト128K(日本語換算約20万語)。MCP準拠・エージェント機能搭載。⚠️「cotomi Act」のWebArena 80.4%はv3本体ではなく別技術の条件付き評価値。自治体・金融・医療の実証知見が強み
ELYZA-JP-70B(KDDI・ELYZA) (❓)Haiku〜Sonnet下位 70B
Llamaベース日本語特化
医療特化版はIgakuQAで最高スコア(自社評価)。Llamaエコシステム互換性が強み
Sarashina2 mini(SoftBank) (❓)Haiku級 460B MoEから蒸留
フルスクラッチ基盤
H100×6,000台規模インフラで基盤開発。みずほ・中外製薬と特化モデル共同開発
CC Gov-LLM(カスタマークラウド) (❓暫定)Haiku級 非公開 行政実務特化。ほぼ全情報が非公開

源内選定外:注目の高性能国産モデル

モデル(企業) Claudeティア 規模・ライセンス 特徴・注意点(ベンチマークは全て⚠️自社評価)
PLaMo 3.0 Prime β(PFN)
2026/3/19発表・6月中旬商用化予定
(❓暫定)Haiku〜Sonnet下位 非公開(β版)
フルスクラッチ
国産初の長考(Reasoning)対応LLM。NICTとの共同開発で日本語推論強化。β版段階のため独立評価なし。全情報(暫定)
Rakuten AI 3.0(楽天)
2026/3/17公開
(❓暫定)Haiku〜Sonnet下位 約700B MoE(有効約40B)
Apache 2.0
日本語MT-Bench 8.88(GPT-4oの8.67超)(自社評価)。国内企業公開LLM最大規模。GENIAC第3期採択。商用・改変・再配布が完全自由。国際独立評価なし(暫定)
Stockmark-2-100B(ストックマーク)
2025/3公開・9月NVIDIA NIM対応
(❓)Haiku級 100B・1.5兆トークン事前学習
MIT
国産フルスクラッチオープンモデル中最高性能(自社比較)。ビジネスQ&AでGPT-4oを僅かに上回る(自社評価)。NVIDIA NIM対応。トヨタ・パナソニック等に導入実績あり
⚠️ 国産モデル共通注意事項:性能データは大半が自社評価値(⚠️)で、Artificial Analysis等の国際独立評価が存在するものはゼロ。「JGLUEで世界最高」「GPT-4超え」等は評価条件・比較対象バージョンに強く依存する。2027年1月の源内評価結果公表が、初めての政府公式横断比較データになる見込み。

まとめ:Claudeティア対応関係(独立評価ベース)

Claudeティア
(AA Index目安)
フロンティア 準フロンティア・中国系・国産
⚠️ Mythos/Fable級(65・停止中) GPT-5.5 Pro(暫定・❓)
Gemini 3.5 Pro(暫定・未発売・❓)
🔵 Opus級(57〜61) GPT-5.5(60 ✅)
Gemini 3.1 Pro(57 ✅)
GPT-5.4(57 ✅)
【中国系】Qwen3.7 Max(57 ✅)
🟢 Sonnet〜Opus下位(44〜56) Gemini 3.5 Flash(55 ✅)
Gemini 3 Flash(46 ✅)
【準】Grok 4.3(53 ✅)/ Command A(❓暫定)
【中国】Kimi K2.6(54 ✅)/ DeepSeek V4-Pro(52 ✅)
DeepSeek V4-Flash・Qwen3-235B・Doubao(全て❓暫定)
【国産】到達なし
⚪ Haiku級(〜23) GPT-5.4 mini・Gemini 3.1 Flash-Lite(共に❓) 【準】Mistral Large 3(23 ✅)/ Nova Premier(19 ✅)/ Phi-4(❓暫定)
【国産】全モデル(PLaMo・Takane・tsuzumi・cotomi・ELYZA・Sarashina・Stockmark・Rakuten AI など)(全て❓)

用途別の選定指針(2026年6月・独立評価ベース)

最高難度・長時間自律タスク:Opus 4.8(AA 61・$5/$25)かGPT-5.5(AA 60・$5/$30)が実績ある最上位の選択肢(Fable 5/Mythos 5は停止中)。コスト感度が高ければDeepSeek V4-Pro(AA 52・$0.435/$0.87)が出力単価1/29でOpus相当に迫るが、ベンチマーク汚染の懸念とデータガバナンス要件の確認が必須。

本番デフォルト(Sonnet〜Opus下位帯域):Qwen3.7 Max(AA 57・$1.25〜2.50)はOpus 4.8に迫る独立評価スコアで費用対効果が高い。Gemini 3.5 Flash(AA 55・$1.50/$9)はコーディング・エージェント特化で3.1 Proを上回る。Kimi K2.6(AA 54)はエージェントスワーム特化。Grok 4.3(AA 53)は低価格で高速。いずれも独立評価付き。Mistral Large 3(AA 23)はGDPR・EU適合性優先時の選択肢だが汎用性能には過度な期待は禁物。

日本語・データ主権・政府/規制業界:汎用タスクはClaude/GPT/Geminiが第一選択。日本語特化ならTakane 32B(日本語ベンチ実績・⚠️)またはPLaMo 3.0 Prime(商用化後・暫定)。オープンウェイト自社チューニングならRakuten AI 3.0(Apache 2.0・❓暫定)またはStockmark-2-100B(MIT・❓)。エンタープライズRAG・MCP連携はcotomi v3(NEC生態系)。2027年1月の源内評価結果公表が本格採用判断の最重要マイルストーン。

本記事のデータは2026年6月15〜16日時点の調査に基づく。AA Intelligence Index v4.0(2026年6月13日スナップショット:BenchLM.ai経由)を参照。最新価格・ベンチマークは各社公式ドキュメントで確認されたい。

0 件のコメント: