はじめに:評価の信頼性をどう読むか
本稿では Anthropic Claude の4階層(Mythos/Fable・Opus・Sonnet・Haiku)を共通の「ものさし」として、他社モデルを相対的に位置づける。ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。
⚠️ ベンダー自己申告:各社公式ブログ・プレスリリースの値(条件・方法が非公開のケースあり)
❓ 評価データ不十分:独立評価が存在しないか入手できなかったモデル
(暫定):未発売・β版・発表のみで本格評価未実施
Claude 4階層の定義(基準軸)
AA Intelligence Index(0〜100)=Artificial Analysisによる独立評価合成スコア。SWE-bench VerifiedとSWE-bench Proは別指標のため直接比較不可。
| ティア | モデル | 価格(入力/出力 per 1M) | AA Index | 主要ベンチマーク |
|---|---|---|---|---|
| ⚠️ Mythos/Fable級 (停止中) |
Fable 5 (6/9リリース→6/12停止) |
$10 / $50 | 65 ✅ 全モデル1位 |
SWE-bench Pro 80.3% ⚠️ |
| 🔵 Opus級 | Opus 4.8 (2026/5/28) |
$5 / $25 Fast: $10/$50 |
61 ✅ | SWE-bench Verified 88.6% ⚠️ SWE-bench Pro 69.2% ⚠️ GPQA Diamond 93.6% ⚠️ GDPval-AA 1890 Elo ✅ |
| 🟢 Sonnet級 | Sonnet 4.6 (2026/2/17) |
$3 / $15 | 44 ✅ 非推論モード |
SWE-bench Verified 79.6% ⚠️ OSWorld 72.5% ⚠️ |
| ⚪ Haiku級 | Haiku 4.5 (2025/10) |
$1 / $5 | ❓ | 高速・低コスト・ルーティング向け |
カテゴリ1:フロンティアモデル(OpenAI・Google)
OpenAI
| Claudeティア | モデル | 価格(per 1M) | AA Index | 特徴・ベンチマーク |
|---|---|---|---|---|
| Mythos/Fable級 (暫定) |
GPT-5.5 Pro 2026/4/24 |
$30 / $180 | ❓(未評価) | 最高精度重視の最上位バリアント。FrontierMath Tier 4 39.6% ⚠️。独立評価データ不足のため(暫定) |
| Opus級 | GPT-5.5 2026/4/23 |
$5 / $30 | 60 ✅ AA独立・3位 |
GPT-4.5以来の完全再訓練・ネイティブ全モーダル。Terminal-Bench 2.0 82.7% ⚠️でOpus 4.8を上回る。SWE-bench Pro 58.6% ⚠️はOpus 4.8(69.2%)より低い。コンテキスト1M |
| Sonnet〜Opus下位 | GPT-5.4 2026/3 |
$2.50 / $15 | 57 ✅ | GPT-5.5の前世代。コスト効率の良い汎用モデル。コンテキスト1M |
| Haiku級 | GPT-5.4 mini | $0.75 / $4.50 | ❓ | 量産向けバランス型。コンテキスト400K |
| Haiku級以下 | GPT-5.4 nano | $0.20 / $1.25 | ❓ | 分類・抽出・ルーティング専用。最廉価帯 |
| Claudeティア | モデル | 価格(per 1M) | AA Index | 特徴・ベンチマーク |
|---|---|---|---|---|
| Mythos/Fable級 (暫定・未発売) |
Gemini 3.5 Pro 【6月下旬目標・未発売】 |
未発表 | ❓(未発売) | Google I/O 2026(5/19)発表のみ。コンテキスト2M・Deep Thinkモード搭載予定。全情報(暫定) |
| Opus級 | Gemini 3.1 Pro 2026/2/19 Preview |
$2 / $12 (200K超: $4/$18) |
57 ✅ | GPQA Diamond 94.3% ✅(AA独立) / HLE 44.4% ⚠️ / ARC-AGI-2 77.1% ⚠️。Deep Think(HLE 48.4%)はAI Ultra(約$250/月)限定。マルチモーダル最強クラス。コンテキスト1M(GA時2M) |
| Sonnet級 コーディング/エージェントで 3.1 Pro超え |
Gemini 3.5 Flash 2026/5/19 GA |
$1.50 / $9 (キャッシュ: $0.15) |
55 ✅ | Terminal-Bench 2.1 76.2% ✅ / MCP Atlas 83.6% ✅ / MMMU-Pro 84% ✅(AA独立)。コーディング・エージェントで3.1 Proを上回る。約4倍高速。⚠️出力$9/Mは旧Gemini 3 Flash($3/M)の3倍 |
| Haiku〜Sonnet下位 | Gemini 3 Flash 2025/12/17 |
$0.50 / $3 | 46 ✅ | 旧Geminiアプリ既定モデル。バランス型 |
| Haiku級 | Gemini 3.1 Flash-Lite | $0.25 / $1.50 | ❓ | コスト効率重視。コンテキスト1M |
| Haiku級以下 | Gemini 2.5 Flash-Lite | $0.10 / $0.40 | ❓ | Gemini APIで最廉価。バッチ・大量分類向け |
カテゴリ2:準フロンティアモデル
| Claudeティア | モデル(会社) | 価格(per 1M) | AA Index | 特徴・ベンチマーク |
|---|---|---|---|---|
| Opus下位 (コスパ最高) |
Grok 4.3(xAI) 2026/4/30 |
$1.25 / $2.50 | 53 ✅ Gemini 3.5 Flash(55)より低い |
GPQA Diamond 90.1% ✅(AA独立)。169 t/sの高速。Opus 4.8比で入力1/4・出力1/10。コンテキスト1M(200K超は高単価) |
| Haiku〜Sonnet下位 | Grok 4.1 Fast(xAI) | $0.20 / $0.50 | ❓ | コンテキスト2M(競合最大クラス)。大量処理・ルーティング向け |
| ⚠️ Haiku級相当 (格付け要注意) |
Mistral Large 3(Mistral AI) 2025/12/4 |
$0.50 / $1.50 | 23 ✅ ⚠️ Sonnet 4.6(44)の約半分 |
GPQA Diamond 約44% ✅(AA独立)。⚠️AA Indexは23でHaiku級相当。主な強みは価格($0.50/$1.50)・EUベース・Apache 2.0・GDPR準拠。675B MoE(アクティブ41B)、コンテキスト262K |
| Haiku級 (コード特化) |
Codestral 2508(Mistral AI) 2025/8 |
$0.30 / $0.90 | ❓(汎用指標外) | FIM補完・IDE統合向け低レイテンシ。コンテキスト32K |
| (暫定)Sonnet級 (RAG特化) |
Command A(Cohere) 2025/3/13 |
$2.50 / $10 | ❓(AA未掲載) | オープンウェイト111B。A100/H100×2基で動作。エンタープライズRAG・引用付き応答・多言語に強み。汎用独立評価なしのため(暫定) |
| Haiku級 (オンデバイス)(暫定) |
Phi-4(Microsoft) 2024/12 |
Azure経由 | ❓(AA未評価) | 14B密結合。GPQA Diamond 56.1% ⚠️ / HumanEval 82.6% ⚠️(Microsoft公式)。エッジ・オンデバイス向け |
| ⚠️ Haiku下位〜Haiku級 (格付け要注意) |
Amazon Nova Premier(AWS) 2025/10/31 |
$2.50 / $12.50 | 19 ✅ ⚠️ 同価格帯中央値(22)以下 |
⚠️AA Index 19はHaiku下位〜Haiku相当。SWE-bench Verified 42.4% ⚠️(Amazon公式)。コンテキスト1M・蒸留教師機能がAWS環境での存在価値。$2.50/$12.50は性能対価格で割高 |
| Haiku級 | Nova Lite / Micro(AWS) | 低価格帯 | ❓ | Bedrock高速・低コスト。大量API呼び出し向け |
カテゴリ3:中国系モデル
2026年最大の変化は「Opus級性能を1/10〜1/30の価格で提供する中国系モデルの台頭」。ただしArtificial Analysisはベンチマーク汚染(contamination)の懸念を指摘しており、独立評価スコアを優先して読む必要がある。
| Claudeティア | モデル(会社) | 価格(per 1M) | AA Index・ライセンス | 特徴・ベンチマーク |
|---|---|---|---|---|
| Opus下位〜Sonnet上位 (コスパ最高) |
DeepSeek V4-Pro(DeepSeek) 2026/4/24 |
$0.435 / $0.87 (2026/5/22恒久値下げ) |
52(Max)/ 50(High)✅ MIT |
SWE-bench Verified 80.6% ⚠️(自己申告)。1.6T MoE/49Bアクティブ。出力単価でOpus 4.8の約1/29。AA Index 52はOpus 4.8(61)に対し9ポイント差。コンテキスト1M(出力384K)。⚠️ベンチマーク汚染の指摘あり |
| (暫定)Sonnet級 | DeepSeek V4-Flash(DeepSeek) 2026/4/24 |
$0.14 / $0.28 | ❓ MIT |
284B/13Bアクティブ。V4-Pro比で高速・低コスト。量産向け。独立評価データ不足のため(暫定) |
| Opus級 (Gemini 3.1 Pro相当) |
Qwen3.7 Max(Alibaba) 2026/5/19〜21 |
$1.25〜2.50 / $3.75〜7.50 (プロバイダーにより差異) |
57 ✅ クローズド |
GPQA Diamond 92.3〜92.4% ✅(AA独立)。AA Index 57でGPT-5.4・Gemini 3.1 Proと同水準。回答試行率が48%と低く難問棄権が多い。コンテキスト1M |
| (暫定)Sonnet下位〜Haiku上位 | Qwen3-235B-A22B(Alibaba) 2025/4 |
$0.46 / $1.82 | ❓ Apache 2.0 |
ArenaHard 95.6% ⚠️ / Codeforces Elo 2056 ⚠️(Alibaba公式)。オープンウェイトMoE。自己ホスティング可能。AA独立評価なく(暫定)。コンテキスト131K |
| Sonnet上位〜Opus下位 (エージェント特化) |
Kimi K2.6(Moonshot AI) 2026/4/20 |
$0.60〜0.95 / $2.50〜4.00 (プロバイダーにより差異) |
54 ✅ Modified MIT |
AA Index 54(Grok 4.3の53を上回る) ✅。SWE-bench Pro 58.6% ⚠️(Moonshot公式)。1T MoE/32Bアクティブ。Agent Swarm(300サブエージェント・13時間連続稼働)。コンテキスト262K |
| (暫定)Sonnet下位〜Haiku上位 | Doubao Seed 2.0 Pro(ByteDance) 2026/2/14 |
約$0.47 / $2.37 | ❓(AA未評価) クローズド |
AIME 2025 98.3 ⚠️ / GPQA Diamond 88.9% ⚠️(ByteDance公式)。独立評価なく(暫定)。⚠️ByteDance製品は日本企業調達審査で懸念が挙がるケースあり。コンテキスト256K |
カテゴリ4:日本国産モデル
汎用国際ベンチマークでは海外フロンティアに大差がある。2025年12月時点のNejumi Leaderboard 4(日本語総合)では上位50モデル中に国産LLMは1モデルのみ。ただし日本語精度・データ主権・国内サポート・政府調達適格性では独自ポジションを確立している。
デジタル庁は2026年3月6日、政府AI「源内」向けに15社応募から7モデルを選定。2026年8月試用開始・2027年1月評価公表・4月以降有償調達判断という工程。
源内選定7モデル(全て❓独立評価なし)
| モデル(企業) | Claudeティア | 規模・方式 | 特徴・注意点(ベンチマークは全て⚠️自社評価) |
|---|---|---|---|
| PLaMo 2.0 Prime(PFN) 2026/1 |
(❓)Haiku級 | 8B/31B フルスクラッチ |
JFBenchでGPT-5.1相当(自社評価)。独自トークナイザでトークン効率45%改善。自治体150以上に導入実績 |
| Takane 32B(富士通) | (❓)Haiku級 | 32B Cohere Command R+ベース共同開発 |
JGLUEで世界最高クラス(自社評価)。中央省庁実証で関連条項の80%超を特定。Cohere依存がソブリンAI観点での懸念点 |
| tsuzumi 2(NTTデータ) 2025/10 |
(❓)Haiku級 | 30B フルスクラッチ |
H100 GPU 1基で動作する軽量設計。医療・金融分野で実証知見あり |
| cotomi v3(NEC) 2025/7 |
(❓)Haiku級 | 非公開 独自開発 |
コンテキスト128K(日本語換算約20万語)。MCP準拠・エージェント機能搭載。⚠️「cotomi Act」のWebArena 80.4%はv3本体ではなく別技術の条件付き評価値。自治体・金融・医療の実証知見が強み |
| ELYZA-JP-70B(KDDI・ELYZA) | (❓)Haiku〜Sonnet下位 | 70B Llamaベース日本語特化 |
医療特化版はIgakuQAで最高スコア(自社評価)。Llamaエコシステム互換性が強み |
| Sarashina2 mini(SoftBank) | (❓)Haiku級 | 460B MoEから蒸留 フルスクラッチ基盤 |
H100×6,000台規模インフラで基盤開発。みずほ・中外製薬と特化モデル共同開発 |
| CC Gov-LLM(カスタマークラウド) | (❓暫定)Haiku級 | 非公開 | 行政実務特化。ほぼ全情報が非公開 |
源内選定外:注目の高性能国産モデル
| モデル(企業) | Claudeティア | 規模・ライセンス | 特徴・注意点(ベンチマークは全て⚠️自社評価) |
|---|---|---|---|
| PLaMo 3.0 Prime β(PFN) 2026/3/19発表・6月中旬商用化予定 |
(❓暫定)Haiku〜Sonnet下位 | 非公開(β版) フルスクラッチ |
国産初の長考(Reasoning)対応LLM。NICTとの共同開発で日本語推論強化。β版段階のため独立評価なし。全情報(暫定) |
| Rakuten AI 3.0(楽天) 2026/3/17公開 |
(❓暫定)Haiku〜Sonnet下位 | 約700B MoE(有効約40B) Apache 2.0 |
日本語MT-Bench 8.88(GPT-4oの8.67超)(自社評価)。国内企業公開LLM最大規模。GENIAC第3期採択。商用・改変・再配布が完全自由。国際独立評価なし(暫定) |
| Stockmark-2-100B(ストックマーク) 2025/3公開・9月NVIDIA NIM対応 |
(❓)Haiku級 | 100B・1.5兆トークン事前学習 MIT |
国産フルスクラッチオープンモデル中最高性能(自社比較)。ビジネスQ&AでGPT-4oを僅かに上回る(自社評価)。NVIDIA NIM対応。トヨタ・パナソニック等に導入実績あり |
まとめ:Claudeティア対応関係(独立評価ベース)
| Claudeティア (AA Index目安) |
フロンティア | 準フロンティア・中国系・国産 |
|---|---|---|
| ⚠️ Mythos/Fable級(65・停止中) | GPT-5.5 Pro(暫定・❓) Gemini 3.5 Pro(暫定・未発売・❓) |
— |
| 🔵 Opus級(57〜61) | GPT-5.5(60 ✅) Gemini 3.1 Pro(57 ✅) GPT-5.4(57 ✅) |
【中国系】Qwen3.7 Max(57 ✅) |
| 🟢 Sonnet〜Opus下位(44〜56) | Gemini 3.5 Flash(55 ✅) Gemini 3 Flash(46 ✅) |
【準】Grok 4.3(53 ✅)/ Command A(❓暫定) 【中国】Kimi K2.6(54 ✅)/ DeepSeek V4-Pro(52 ✅) DeepSeek V4-Flash・Qwen3-235B・Doubao(全て❓暫定) 【国産】到達なし |
| ⚪ Haiku級(〜23) | GPT-5.4 mini・Gemini 3.1 Flash-Lite(共に❓) | 【準】Mistral Large 3(23 ✅)/ Nova Premier(19 ✅)/ Phi-4(❓暫定) 【国産】全モデル(PLaMo・Takane・tsuzumi・cotomi・ELYZA・Sarashina・Stockmark・Rakuten AI など)(全て❓) |
用途別の選定指針(2026年6月・独立評価ベース)
最高難度・長時間自律タスク:Opus 4.8(AA 61・$5/$25)かGPT-5.5(AA 60・$5/$30)が実績ある最上位の選択肢(Fable 5/Mythos 5は停止中)。コスト感度が高ければDeepSeek V4-Pro(AA 52・$0.435/$0.87)が出力単価1/29でOpus相当に迫るが、ベンチマーク汚染の懸念とデータガバナンス要件の確認が必須。
本番デフォルト(Sonnet〜Opus下位帯域):Qwen3.7 Max(AA 57・$1.25〜2.50)はOpus 4.8に迫る独立評価スコアで費用対効果が高い。Gemini 3.5 Flash(AA 55・$1.50/$9)はコーディング・エージェント特化で3.1 Proを上回る。Kimi K2.6(AA 54)はエージェントスワーム特化。Grok 4.3(AA 53)は低価格で高速。いずれも独立評価付き。Mistral Large 3(AA 23)はGDPR・EU適合性優先時の選択肢だが汎用性能には過度な期待は禁物。
日本語・データ主権・政府/規制業界:汎用タスクはClaude/GPT/Geminiが第一選択。日本語特化ならTakane 32B(日本語ベンチ実績・⚠️)またはPLaMo 3.0 Prime(商用化後・暫定)。オープンウェイト自社チューニングならRakuten AI 3.0(Apache 2.0・❓暫定)またはStockmark-2-100B(MIT・❓)。エンタープライズRAG・MCP連携はcotomi v3(NEC生態系)。2027年1月の源内評価結果公表が本格採用判断の最重要マイルストーン。
本記事のデータは2026年6月15〜16日時点の調査に基づく。AA Intelligence Index v4.0(2026年6月13日スナップショット:BenchLM.ai経由)を参照。最新価格・ベンチマークは各社公式ドキュメントで確認されたい。
0 件のコメント:
コメントを投稿