木曜日, 6月 18, 2026

ローカルLLM(オープンウェイトモデル)徹底比較 2026年6月版

はじめに:評価の信頼性をどう読むか

本稿では前回記事のClaudeティア体系(Mythos/Fable・Opus・Sonnet・Haiku)を「ものさし」として、ローカルで動作するオープンウェイトLLMを整理する。Haiku以下については3段階のサブティアを新設した。

ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。

  • 独立評価あり:Artificial Analysis・SWE-rebench・Swallow Leaderboard・Nejumi Leaderboard 4等の第三者評価
  • ⚠️ ベンダー自己申告:各社公式ブログ・プレスリリースの値(条件・方法が非公開のケースあり)
  • 評価データ不十分:独立評価が存在しないか入手できなかったモデル
  • (暫定):未発売・β版・発表のみで本格評価未実施

ローカルLLMのティア定義(本記事で使用)

ティア Claude基準との対応 パラメータ規模の目安 動作環境の目安
🟣 フロンティアオープン Sonnet〜Opus相当 100B超(密)または400B超(MoE) 複数GPU(H100×8等)またはApple M2 Ultra 192GB以上
⚪ Haiku相当 Haiku 4.5相当 14B〜70B(密) RTX 3090/4090(24GB)〜RTX 5090(32GB)
🔵 Nano級(新設) Haiku下位〜準Haiku 3B〜14B(量子化) RTX 3060(12GB)/RTX 4060Ti(16GB)または16GB RAM + CPU推論
🟡 Pico級(新設) Haiku以下 〜3B(量子化) スマートフォン(iPhone 14 A16 Bionic等)・Raspberry Pi・CPU専用PC

VRAM要件早見表(2026年6月・Q4_K_M量子化目安)

VRAMはローカルLLM運用の最大ボトルネック。モデルウェイトが収まらないと推論速度が桁違いに低下する。以下は目安値(KVキャッシュ・コンテキスト長は別途加算)。

⚠️ 70BのQ4_K_M(約38〜40GB)はRTX 5090(32GB)単体では短いコンテキスト専用となる。128Kコンテキストには+14GB以上が必要で、デュアルRTX 5090(64GB合計)またはMac Studio M5 Max(128GB統合メモリ)が現実的。

パラメータ規模 BF16(フル精度) Q8 Q4_K_M 代表GPU
〜1B 〜2GB 〜1GB 〜0.8GB スマートフォン・Raspberry Pi(Pico級)
3B 〜6GB 〜3GB 〜2GB RTX 3060(12GB)・スマートフォン高性能品(Pico〜Nano)
7〜8B 〜16GB 〜8.5GB 〜5GB RTX 3060(12GB)/RTX 4060(Nano級)
14B 〜28GB 〜15GB 〜9GB RTX 4060Ti(16GB)/RTX 4070(Nano〜Haiku下位)
27〜32B 〜64GB 〜35GB 〜19GB RTX 4090(24GB)/RTX 5090(32GB)(Haiku相当)
70B 〜140GB 〜74GB 〜38〜40GB デュアルRTX 4090(48GB合計)・Mac Studio M5 Max(128GB)
235B-A22B(Qwen MoE) 〜120GB A100×2〜H100×2・Mac Studio M2 Ultra 192GB(フロンティアオープン)
671B(DeepSeek-V3等) 〜1.3TB以上 〜685GB 〜370GB H100×8以上・クラウド前提(フロンティアオープン)

計算式目安:VRAM(GB) ≈ パラメータ(B) × バイト/param × 1.2(BF16=2、Q8=1、Q4_K_M≒0.55)。MoEモデルは総パラメータ全体をVRAMにロードする必要がある(活性パラメータだけでは済まない)。KVキャッシュは70Bモデル・128Kコンテキストで+14GB以上が追加で必要。


カテゴリ1:主要国際オープンウェイトモデル

Qwen系(Alibaba)— オープンウェイト最大勢力 🇯🇵

2026年現在、オープンウェイトの事実上の主役。全シリーズがApache 2.0(商用完全自由)で、日本語能力も高い。

ティア モデル ライセンス コンテキスト 特徴・ベンチマーク
🟣 フロンティアオープン Qwen3.5-397B-A17B
2026/2〜3
Apache 2.0 1M フラッグシップMoE。Gated DeltaNet+sparse MoE、201言語対応。BFCL-V4 72.2でGPT-5 miniを上回る⚠️。H100×8以上またはMac Ultra 192GB必須。
🟣 フロンティアオープン Qwen3-235B-A22B
2025/4
Apache 2.0 131K→256K(2507) ArenaHard 95.6、AIME'24 85.7⚠️。Q4で約120GB。Thinking/Non-thinkingモード切替。
⚪ Haiku相当 Qwen3.6-27B
2026/4
Apache 2.0 262K(〜1M YaRN) コンシューマーGPUで動作する最強コーディングモデル。SWE-bench Verified 77.2⚠️、SWE-bench Pro 53.5⚠️、GPQA Diamond 87.8⚠️。15倍大きいQwen3.5-397Bのコーディングベンチを凌駕。Dense+ネイティブマルチモーダル。Q4で約18GB(RTX 4090に収まる)。
⚪ Haiku相当 Qwen3 32B
2025/4
Apache 2.0 131K AIME'24 79.5⚠️。Q4で約19GB。RTX 4090に収まる。
⚪ Haiku相当 QwQ-32B
2025年
Apache 2.0 131K 推論特化。AIME24 79.5、LiveCodeBench 63.4でDeepSeek-R1(671B)に匹敵⚠️。Q4で24GB。RTX 5090(32GB)推奨。
⚪ Haiku相当 Qwen3.6-35B-A3B(MoE)
2026/4
Apache 2.0 262K 総35B/3B活性のMoE。Q4で約6〜7GB。RTX 3060(12GB)でも高速動作。速度優先ならこちら。
🔵 Nano級 Qwen3 14B / 8B
2025/4
Apache 2.0 131K 14B Q4で約9GB(RTX 4060Ti 16GBに収まる)。8B Q4で約5GB(RTX 3060 12GBで動作)。
🟡 Pico級 Qwen3 4B / 1.7B / 0.6B
2025/4
Apache 2.0 131K 0.6B Q4で約0.5GB。スマートフォン・Raspberry Pi動作可。4B Q4で約2.5GB。CPU推論可。

Gemma系(Google DeepMind)— Googleの本気オープン 🇯🇵

2026年4月2日リリースのGemma 4が大きな転換点。Gemmaシリーズ初のApache 2.0に切り替わり、商用利用の懸念が解消された。

ティア モデル ライセンス コンテキスト 特徴・ベンチマーク
⚪ Haiku相当 Gemma 4 31B(Dense)
2026/4/2
Apache 2.0(Gemma初) 256K MMLU-Pro 85.2、AIME 2026 89.2%⚠️(Gemini 3系と同基盤)。Chatbot Arena #3相当⚠️。画像+音声入力(出力はテキストのみ)。Q4で約17GB(RTX 4090に収まる)。140+言語。
🔵 Nano級(速度重視) Gemma 4 26B-A4B(MoE)
2026/4/2
Apache 2.0 256K 26B総/4B活性。31B Denseの約97%の品質でQ4時の推論速度は大幅高速。RTX 3090/4090でも高速。Chatbot Arena #6相当⚠️。
🔵 Nano級 Gemma 4 E4B(約4.5B)
2026/4/2
Apache 2.0 128K テキスト+画像+音声入力。MediaPipe/LiteRT対応。RTX 3060で動作。
🟡 Pico級 Gemma 4 E2B(約2.3B)
2026/4/2
Apache 2.0 128K スマートフォン・エッジ向け。音声入力対応。ollama run gemma4で1コマンド起動可。
⚪ Haiku相当 Gemma 3 27B
2025/3
Gemmaライセンス(商用可) 128K Chatbot Arena ELO 1339(o1-preview相当)⚠️。MMLU-Pro 67.5、GPQA Diamond 42.4。Q4で約16GB(RTX 4080 16GBに収まる)。先代のリファレンスモデル。

DeepSeek系(オープンウェイト版)

⚠️ DeepSeek R2は2026年6月時点で未リリース。 公式発表・APIエントリなし。2026年4月24日にDeepSeek V4(V4-Pro/V4-Flash)がAPIとオープンウェイトで出荷されたのが最新の公式リリース。R2(次世代推論モデル)は噂のみで確認情報なし。

ティア モデル ライセンス 特徴・ベンチマーク(ローカル動作観点)
🟣 フロンティアオープン DeepSeek-V3 / V3.x
671B、2024/12〜
MIT MMLU 88.5、MMLU-Pro 75.9、GPQA 59.1✅(論文記載値)。128Kコンテキスト。FP8で約685GB。SGLang・vLLM・TensorRT-LLM・LMDeploy・AMD・Ascend対応。H100×8前提。
⚪ Haiku相当 DeepSeek-R1-Distill-Qwen-32B
2025/1
Apache 2.0 推論特化蒸留版。AIME 2024 72.6、MATH-500 94.3⚠️。Q4で約19GB(RTX 4090)。
🔵 Nano級 DeepSeek-R1-Distill-Qwen-14B / 7B
2025/1
Apache 2.0 14B Q4で約9GB(RTX 4060Ti 16GBに収まる)。7B Q4で約5GB(RTX 3060)。R1の推論能力を低コストで活用可。
🔵 Nano級 DeepSeek-R1-Distill-Llama-8B / 70B
2025/1
Llamaライセンス 8B Q4で約5GB。70B Q4で約38GB(デュアルRTX 4090必要)。AIME 70.0、MATH-500 94.5⚠️(70B)。

Llama系(Meta)

⚠️ Llama 4 Behemoth(約2T総/288B活性)は2026年4月時点で学習継続中・未公開。 公式発表で「教師モデル」と位置付けられており、一般向けウェイト出荷の予定は未発表。Behemothをベースとした計画は立てないこと。2026年現在のLocak用途での現実的な選択肢はScoutとMaverick、およびLlama 3.3 70Bとなる。

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン(ハード要求大) Llama 4 Maverick
400B総/17B活性、2025/4
Llama 4 Community(商用可・700M MAU制限) 1M。128エキスパートMoE。マルチモーダル。MMLU-Pro 80.5⚠️。Q4で200GB+。ローカル動作は非現実的(H100×8以上必要)。
⚪ Haiku相当 Llama 4 Scout
109B総/17B活性、2025/4
Llama 4 Community 10Mトークンコンテキストが最大の特徴。MMLU-Pro 74.3✅。16エキスパートMoE。Int4でH100 1基、Q4で約55〜60GB(デュアルRTX 5090または単一H100 80GB)。
⚪ Haiku相当 Llama 3.3 70B
2024年末
Llama Community 128K。MMLU Chat 86.0、IFEval 92.1⚠️(405Bを上回る指示追従)。テキスト専用。Q4で約39〜43GB(デュアルRTX 4090必要)。
🔵 Nano級 Llama 3.1 / 3.2 8B Llama Community 128K。Q4で約5GB(RTX 3060で動作)。エコシステム最大のモデル。微調整版が多数。
🟡 Pico級 Llama 3.2 1B / 3B Llama Community 128K(ExecuTorchでモバイル版は8K)。Arm/Qualcomm最適化済み。ExecuTorch経由でAndroid/iOS動作実証済み。

⚠️ Llamaライセンスの注意点:月間アクティブユーザー7億以上の企業は別途Meta許諾が必要。EUではマルチモーダル版に追加制限あり。OSI基準の「オープンソース」には非該当。

Mistral / Mixtral系

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン Mistral Large 3
675B総/41B活性、2025/12
Apache 2.0(使用制限なし) 256K。sparse MoE。MATH-500 93.6⚠️。3,000台のH200で学習。商用利用の制限がない点でLlamaとの差別化ポイント。EU・GDPR対応でのデータ主権観点でも強み。
⚪ Haiku相当 Mistral Small 3.1 24B
2025/3
Apache 2.0 128K。Vision対応。単一RTX 4090または32GB RAM MacBookで量子化動作可能。
🔵 Nano級 Mistral Nemo 12B Apache 2.0 128K。128Kが扱える中型モデル。Q4で約7GB。
🔵 Nano級(コード特化) Codestral 2508
2025/8
⚠️ MNPL(非商用) 256K。FIM補完・IDE統合向け低レイテンシ。ライセンス要注意:非商用のみ。商用IDE統合にはMistral APIが必要。
🔵 Nano級 Mistral 7B Apache 2.0 初代。エコシステム豊富。Q4で約4GB。

Phi系(Microsoft)— SLMのパイオニア

ティア モデル ライセンス 特徴・ベンチマーク
⚪ Haiku下位 Phi-4(14B)
2024年末
MIT 高品質合成データ学習。GPQA Diamond 56.1、HumanEval 82.6⚠️。Windows/Azure Edgeデフォルト候補。Q4で約9GB(RTX 4060Ti 16GBに収まる)。
🔵 Nano級 Phi-4 Mini(3.8B)
2026年初頭
MIT MMLU 73.0でLlama 3.1 8B相当⚠️。Q4で約2.5GB。RTX 4090で300+ tok/s。スマートフォン・Raspberry Pi・WebLLMで動作。推論強化版(reasoning/reasoning-plus)あり。
🟡 Pico級 Phi-3 Mini(3.8B) MIT MMLU 69、4bit量子化で約1.8GB。iPhone 14(A16 Bionic)での実機動作を実証済み(arXiv技術レポート記載)。WindowsデバイスへのオンデバイスAI実装のリファレンス。

GLM系(Zhipu AI / Z.ai)

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン GLM-5.1
744B総/40B活性、2026/4
MIT SWE-bench Verified 78.9⚠️。tool-use/codings特化。8×H100で自己ホスト可能。
⚪ Haiku相当 GLM-4.5-Air
106B総/12B活性
MIT MoE。tool-use/codings特化、reasoning切替対応。tool-useベンチでClaude Sonnet 4を上回る⚠️。12B活性でコンシューマーGPU動作可(総106GBのVRAM必要)。
🔵 Nano級 GLM-Z1-9B / GLM-4-9B MIT 9B。GLM-4.1V-9B-ThinkingはQwen-2.5-VL-72Bに18ベンチで匹敵⚠️。Q4で約5.5GB。RTX 3060で動作。

Kimi系(Moonshot AI)

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン Kimi K2.6
約1T総/32B活性、2026/4
Modified MIT 256K。AA Index 54✅(前回記事参照)。SWE-Bench Pro 58.6でオープンウェイト最高水準⚠️。スワームサンプリング(300サブエージェント・13時間連続稼働)。

カテゴリ2:日本語特化オープンウェイトモデル 🇯🇵

⚠️ 重要な現実:Nejumi Leaderboard 4(2025年12月18日時点)の総合Top50に国産フルスクラッチモデルは1つも入っていない。「オープンウェイトで日本語が最も得意なモデルはQwen系(中国製)」という逆転現象が起きている。一方、データ主権・オンプレ完結・政府調達適格性では国産モデルが不可欠な場面がある。

⚠️ 「日本産」の定義に注意:Swallow系はQwen/GPT-OSSのファインチューン、ELYZAはLlamaベース、Rakuten AI 3.0はDeepSeek V3ベースのファインチューン(後述)。フルスクラッチはPLaMo、LLM-jp、Sarashina、NTT tsuzumi、Stockmark等に限られる。

ティア モデル(企業) ライセンス 特徴・注意点
🔶 フルスクラッチ系(真の国産モデル)
🔵 Nano〜⚪ Haiku Sarashina2-70B(SB Intuitions)
2024/8
MIT フルスクラッチ、約2.1Tトークン学習。日本語QAトップクラス(自社比較⚠️)。指示チューニングなし(ベースモデル)。Q4で約40GB(デュアルRTX 4090必要)。
🟡 Pico〜🔵 Nano Sarashina2.2(0.5B/1B/3B)(SB Intuitions)
2025/2〜3
MIT・商用可 3Bでも日本語数学(MGSM-ja)・コーディング(JHumanEval)でSarashina2-70Bを上回ると報告⚠️。Sarashina2-Vision-8B/14Bも同時期公開。
⚪ Haiku(暫定) Stockmark-2-100B(ストックマーク)
2025/3
MIT フルスクラッチ、約1.5Tトークン、GQA・32Kコンテキスト。ビジネスQA 90%(GPT-4o 88%超⚠️自社評価)。NVIDIA NIM対応(2025/9)。トヨタ・パナソニック等に導入実績。
🔵 Nano(暫定) LLM-jp-4(国立情報学研究所)
2026年
❓(研究利用主体) 11.7Tトークン学習、Qwen3 MoEアーキテクチャ採用(ウェイトは新規学習)。JP MT-Bench 7.82でGPT-4o(7.29)を上回る⚠️。完全な再現可能性重視の研究用途。
⚪ Haiku(暫定) PLaMo 3.0 Prime β(Preferred Networks)
2026/3/19
PLaMo Community License(商用要連絡)
1Bモデルのみ Apache 2.0
フルスクラッチ再構築、Samba系ハイブリッドアーキテクチャ(Mamba2+attention)。日本初のスクラッチ推論モデル。NICT共同開発。64Kコンテキスト。β版・商用版は6月中旬以降予定。独立評価なし(暫定)。
🔵 Nano NVIDIA Nemotron Nano 9B v2 Japanese
2026/2/17
NVIDIA Nemotron Open Model License Mamba-2+Transformerハイブリッド。128Kコンテキスト。Nejumi Leaderboard 4 sub-10Bカテゴリ1位(TOTAL_AVG約0.711)✅。日本語9B以下最強候補。
🔶 ファインチューン系(ベースモデルに注意)
🟣 フロンティアオープン(暫定) Rakuten AI 3.0(楽天)
2026/3/17
Apache 2.0(⚠️当初MIT削除問題あり) ⚠️ DeepSeek-V3ベースのファインチューンと判明(config.jsonに"deepseek_v3")。リリース数時間でコミュニティが発見し炎上。当初MIT削除でライセンス違反、批判後にNOTICEファイル追加で対処。GENIACプロジェクト(経産省・NEDO)資金。日本語ベンチで優秀(自社比較⚠️)だが「国産AI」としての位置づけは要注意。DeepSeek懸念がある組織は調達審査が必要。
🔵 Nano Rakuten AI 2.0(8x7B MoE)/ mini(1.5B)(楽天)
2025/2/12
Apache 2.0 47B総/13B活性MoE。Japanese MT-Bench 7.08⚠️。HuggingFace公開・実際にローカル動作実績あり。mini(1.5B)も同日公開、Apache 2.0。
⚪ Haiku下位〜Haiku GPT-OSS Swallow 120B(東京科学大学/AIST)
2026/2/20
GPT-OSSベースの制限に依存 GPT-OSSに日本語継続事前学習。JP MT-Bench 0.916でGPT-5.1 Thinking(0.897)を上回る✅。知識スコアは低め(0.642)と品質に乖離あり。120BはQ4でH100必要級。
🔵 Nano Llama-3-ELYZA-JP-8B(ELYZA/KDDI)
2024/6
Llama 3 Community LlamaベースのJP特化FT。HuggingFaceでGGUF/AWQ版も公開。Q4で約5GB。デジタル庁「政府AI」プログラムに70B版が採用(70B版はウェイト非公開)。
⚪ Haiku下位 ELYZA-Thinking-1.0-Qwen-32B(ELYZA/KDDI)
2025/5頃
Apache 2.0 Qwen2.5-32B-InstructベースのJP特化チューニング。HuggingFace公開、128Kコンテキスト。Swallowリーダーボードに収録。

⚠️ 国産モデル共通注意事項:性能データは大半が自社評価値(⚠️)で、Artificial Analysis等の国際独立評価が存在するものはゼロ(2026年6月時点)。「JGLUEで世界最高」「GPT-4超え」等は評価条件・比較対象バージョンに強く依存する。2027年1月の政府AI「源内」評価結果公表が初の政府公式横断比較データになる見込み。


カテゴリ3:推論フレームワーク比較(2026年6月)

フレームワーク 形式 推奨用途 特徴・注意点
Ollama GGUF中心 個人・開発者入門 最も簡単な1コマンド起動。Apple Silicon MLXバックエンド対応(0.19〜、2026/3)。主要モデル(Llama/Qwen/Gemma/DeepSeek/Phi/Mistral)全対応。単一ユーザー前提・マルチユーザー本番には不向き。
llama.cpp(GGUF) GGUF 最軽量・低スペック環境 CUDA/ROCm/Vulkan/Metal/CPU全対応。最軽量・最広範な互換性。Qwen 3.6 MTP対応。LM Studioの内部エンジン。
vLLM HuggingFace/FP8 本番マルチユーザーサーバー PagedAttention+継続バッチングで高並列時にOllamaの十数倍〜20倍スループット(同一ハード)。DeepSeek V4 on Blackwell対応(v0.21)。NVIDIA/AMD/TPU/Ascend/Apple対応。本番API提供に最適。
LM Studio GGUF GUI重視・ビジネス用途 HuggingFaceモデルブラウザ内蔵。continuous batching対応(0.4.0)。Windows/Mac/Linuxのデスクトップアプリ。llama.cppベース。
MLX(Apple) MLX専用 Mac専用・高速推論 Apple Silicon専用。M5世代でM4比プロンプト処理4倍高速化。OllamaのApple Siliconバックエンドとして採用。M5 Max 128GBで70B Q4を快適動作。
SGLang / TensorRT-LLM 各種 エンタープライズ高速化 DeepSeek-V3の公式推奨バックエンド。TensorRT-LLMはNVIDIA GPU特化・最高速。HuggingFace TGIは2025/12よりメンテナンスモード。

カテゴリ4:ライセンス分類まとめ

ライセンス種別 商用利用 主なモデル
Apache 2.0 ✅ 完全自由(制限なし) Qwen3/3.5/3.6全般、QwQ-32B、Mistral 7B/Nemo/Small/Mixtral/Large 3、Gemma 4全サイズ(Gemmaシリーズ初)、Rakuten AI 2.0/3.0(ただし3.0はライセンス問題あり)、DeepSeek-R1-Distill-Qwen系
MIT ✅ 完全自由(制限なし) DeepSeek-V3/R1(コード・モデルライセンス)、Sarashina2-70B/2.2、Stockmark-2-100B、GLM-4.6/5.1、Phi-4/Phi-4 Mini/Phi-3 Mini
Llama Community License ⚠️ 条件付き(MAU制限・EUマルチモーダル制限あり) Llama 3.x全系・Llama 4(Scout/Maverick)、ELYZA-JP(Llama 3/3.1ベース)
Gemma Terms of Use(旧Gemma 3まで) ⚠️ 一部制限(エンタープライズ法務審査が必要なケースあり) Gemma 3(1B/4B/12B/27B)、Gemma 2
Codestral MNPL ❌ 非商用のみ Codestral 2508(コード特化)。商用利用にはMistral APIを利用すること
Sarashina2-8x70B独自ライセンス ❌ 非商用のみ Sarashina2-8x70B(460B MoE版)

まとめ:ティア対応表と選定指針(2026年6月)

ティア 主な選択肢 必要ハードウェア 選定ポイント
🟣 フロンティアオープン
(Sonnet〜Opus相当)
DeepSeek-V3(MIT)
Qwen3.5-397B(Apache)
Mistral Large 3(Apache)
Kimi K2.6(Modified MIT)
H100×8以上
またはMac Ultra 192GB
商用無制限を重視するならMistral Large 3(Apache 2.0)が唯一Llama制限なし。EU・GDPR対応でも差別化。DeepSeek-V3(MIT)はコスパ最高だがデータガバナンス審査が必要。
⚪ Haiku相当 Qwen3.6-27B(コード最強)
Gemma 4 31B(汎用・マルチモーダル)
QwQ-32B / R1-Distill-32B(推論)
RTX 4090(24GB)
〜RTX 5090(32GB)
コーディング最優先:Qwen3.6-27B(Apache 2.0、SWE-bench 77.2⚠️)。汎用・Vision必要:Gemma 4 31B(Apache 2.0)。推論特化:QwQ-32B(Apache 2.0)またはR1-Distill-Qwen-32B(Apache 2.0)。
🔵 Nano級
(Haiku下位〜準Haiku)
Qwen3 8B / 14B(Apache)
Gemma 4 E4B(Apache)
Phi-4 Mini(MIT)
GLM-Z1-9B(MIT)
NVIDIA Nemotron 9B JP(日本語)
RTX 3060(12GB)
〜RTX 4060Ti(16GB)
日本語重視:NVIDIA Nemotron Nano 9B JP(Nejumi sub-10B 1位✅)。汎用英語:Qwen3 8B(Apache 2.0)。軽量推論:Phi-4 Mini(MIT)。
🟡 Pico級
(スマートフォン・エッジ)
Phi-3 Mini / Phi-4 Mini Q4(MIT)
Qwen3 0.6B〜1.7B(Apache)
Gemma 4 E2B(Apache)
Llama 3.2 1B/3B(Llama)
スマートフォン
Raspberry Pi
CPU専用PC
iPhone実機実証:Phi-3 Mini(4bit 1.8GB)。Android/Arm最適化:Llama 3.2 1B/3B(ExecuTorch)。日本語重視:Qwen3 1.7B(Apache 2.0)。

判断を変える閾値

  • VRAMが16GB未満→ 32B以上は諦め14B Q4以下に集中。Gemma 4 26B MoEはQ4で8GB前後が目安でお得。
  • 商用利用でMAU制限が懸念→ Llamaを避けApache 2.0(Qwen3.6、Gemma 4、Mistral Large 3)またはMIT(DeepSeek、Phi)系へ。
  • 日本語の「知識精度」が重要→ MT-Bench(会話品質)ではなくjaster/JMMLU/Nejumi総合スコアで判断。GPT-OSS Swallow 120BはMT-Bench 0.916だが知識スコアは0.642と乖離大きい。
  • DeepSeek由来のセキュリティ懸念がある組織→ Rakuten AI 3.0(DeepSeek V3 FT)、R1-Distill-Qwen系(R1蒸留)も対象になりうる。MIT/Apache 2.0のQwen系フルスクラッチ版(Qwen3.6-27Bなど)は異なる。
  • 70Bを単一コンシューマーGPUで動かしたい→ RTX 5090(32GB)でも70B Q4(約38GB)は短いコンテキスト専用。長文推論にはデュアルRTX 5090(64GB合計)またはMac Studio M5 Max(128GB統合メモリ)が必要。

本記事のデータは2026年6月18日時点の調査に基づく。Nejumi Leaderboard 4(2025年12月18日版・2026年3月6日版)、Artificial Analysis(前回記事参照)、各社公式ブログ・HuggingFaceモデルカードを参照。ベンチマーク数値は記事公開後も更新されるため、最新値は各リーダーボードで確認されたい。なお本記事では富士通MONAKA(2027年リリース予定のCPU)およびTakane 32B(富士通エンタープライズ専用・ウェイト非公開)はローカル動作製品に該当しないため記載対象外とした。

水曜日, 6月 17, 2026

AIコーディングツール 2025〜2026 包括比較ガイド

最終更新:2026年6月17日(ファクトチェック実施済み)|本記事は事実(出典明記)と推定・将来予測を明確に区別しています。価格・仕様は変動します。

はじめに:2026年、AIコーディングツール市場は「補完」から「自律エージェント」へ

「AIにコードを書かせる」という体験は、2025〜2026年にかけて根本的に変化しました。インライン補完が当たり前になり、いまや主戦場はマルチファイル編集・Issue自動解決・PR自動生成といった「自律エージェント」の領域に移っています。

本記事ではClaude Code、GitHub Copilot、Cursor、Google Antigravity、AWS Kiro(Amazon Q Developer後継)、Windsurf(現Devin Desktop)、OpenAI Codex、JetBrains AI、Tabnine、さらにOSS系(OpenHands・Cline・Aider・Continue.dev・Tabby・Zed)まで網羅し、機能・シェア・コスト・エンタープライズ対応・主権性を横断比較します。

TL;DR(3行サマリー)

  • 「唯一の勝者」は存在しない。用途別に最適解が分かれる──IDE内補完はGitHub Copilot/Cursor、自律エージェントはClaude Code/OpenAI Codex/AWS Kiro、機密性重視はTabnine/Continue.dev+ローカルLLMが本命。収益トップはCursor(ARR $2B超・2026年2月)、ユーザー数トップはGitHub Copilot(有料4.7M・2026年1月、総26M+)、満足度トップはClaude Code(Pragmatic Engineer調査 46%「最も愛される」)という三強鼎立。
  • 生産性は「条件付き」で向上する。GitHub/MITのRCTでは55.8%高速化が出た一方、METRの2025年RCT(arXiv:2507.09089)では熟練者がむしろ完了時間19%増。2025年DORAレポートは「AIは組織能力の増幅器」と結論。
  • 2026年の主戦場はエージェントとガバナンス。AWS KiroのSpec-Driven型、Google AntigravityのManaged Agents型が新カテゴリを形成。一方で「信頼ギャップ」(Stack Overflow 2025調査:信頼度29%)と主権AI要件が新たな選定基準として浮上。

1. 市場シェア・実績(2026年前半)

主要プレイヤーの実績

  • Cursor(Anysphere):2026年2月にARR $2B超(Bloomberg報道)、2025年11月の$1Bから3か月で倍増。2025年11月の評価額$29.3B(Series D)、2026年4月時点で$50B評価での$2B調達交渉中との報道(a16z・Thrive Capital主導、NVIDIA参画)。Fortune 500の半数以上が利用。
  • GitHub Copilot:有料4.7M(2026年1月、前年比75%増)、総26M+(2026年初頭)。14万近くの組織が利用。Fortune 100の約90%が導入。
  • Claude Code(Anthropic):Menlo Ventures「2025 State of Generative AI in the Enterprise」(2025年11月調査、Menloは出資者のため参考値)でエンタープライズAIコーディング市場シェア約54%。Pragmatic Engineerの2026年2月調査(906名)で「最も愛されるツール」1位46%(Cursor 19%、Copilot 9%)。JetBrains 2026年1月調査でCSAT 91%・NPS 54。年換算売上 $2.5B超(2026年初頭、報道ベース推計)。
  • OpenAI Codex:2026年4月時点で週間アクティブユーザー300万人超(報道ベース)。

開発者調査

  • Stack Overflow 2025 Developer Survey(n=49,009、166カ国、2025年5〜6月実施):AI利用率84%(前年76%)。ChatGPT 82%、GitHub Copilot 68%、Claude Sonnet 45%、Cursor 18%(初登場)、Claude Code 10%(初登場)。AI信頼度は29%に低下(2024年40%)、46%が「不正確だと不信」、3%のみ「高信頼」。
  • JetBrains AI Pulse 2026年1月調査:GitHub Copilot 29%、Cursor 18%、Claude Code 18%(職場利用)。90%が職場でAIツールを利用。Claude Code認知度:2025年4月31%→2026年1月57%(9か月で倍増)。
  • Pragmatic Engineer 2026年2月調査(906名、上級エンジニア中心):95%がAIツールを週次以上利用。Claude Codeが最多利用・最高満足度(46%「最も愛される」)。

2. ツール別機能・先進性

■ Cursor(Anysphere)

VS Codeフォーク。インライン補完(高速Tab差分予測)、Composer(マルチファイル編集)、Background Agents(リモートVM非同期実行)、ネイティブMCP対応。2026年3月投入のComposer 2とCursor Automations(自律エージェントでIssue→PR自動化)。エンタープライズ売上が全体の約60%。

📌 向いている用途:個人〜中規模チームの日常コーディング。コンプライアンス上はSOC2のみで規制業界には注意。

■ GitHub Copilot(Microsoft / GitHub)

有料プランではインライン補完が無制限・クレジット消費なし。チャットはGPT-5.4・Claude Sonnet 4.6・Gemini等から選択可。エージェントモードはVS CodeでGA(2025年4月)、JetBrains/Eclipse/Xcodeに拡張(2025年7月)、2026年3月にJetBrainsでカスタムエージェント等GAに。自律コーディングエージェント(Issue→PR自動生成)、エージェント型コードレビュー(2026年3月)、GitHub Spark(自然言語アプリビルダー、Pro+/Enterprise限定)。

⚠ 課金変更(2026年6月1日):「AIクレジット」従量課金へ移行。補完は無料据え置きだがエージェント・チャット・レビューはトークン消費。2026年4月20日〜新規個人プランの登録を一時停止(Enterprise等は継続)という異例の事態も発生。

📌 向いている用途:GitHub中心の大企業・エンタープライズ。IP補償・監査ログ・SAML SSO対応。大企業(1万人超)では56%が利用し最多。

■ Claude Code(Anthropic)

ターミナルCLI型エージェント。最大1Mトークンコンテキスト(2026年3月GA)、subagent並列実行(Dynamic Workflowsは最大1,000 subagent、research preview)、Checkpoints(巻き戻し)、MCP・hooks・skills対応。CLI/VS Code/JetBrains/デスクトップ/Web/iOS対応。Claude Code 2026年5月時点でSWE-bench Verified 58%(standalone時)。

📌 向いている用途:複雑なマルチファイル変更・長時間自律タスク。Pragmatic Engineer調査で「最も愛される」1位(46%)、JetBrains調査でCSAT 91%。Anthropic専用でベンダーロックイン度は高い。

■ AWS Kiro ── Amazon Q Developerの正式後継(★重要★)

【確認済み】Amazon Q Developer 終了スケジュール(AWS公式ブログ 2026年4月30日)
・2026年5月15日:新規サインアップ停止(既存ユーザーは継続利用可)
・2026年5月29日:Q Developer ProからClaude Opus 4.6が削除(最新モデルはKiroのみ提供)
2027年4月30日:IDEプラグインと有料サブスクリプションのサポート終了
※AWSコンソール内のQ Developer機能(Slack/Teams連携等)は影響なし。

Kiroは2026年5月7日に国際リリース。AWSが「コード補完の時代は終わった」と明言し、全く新しいパラダイム「Spec-Driven Development(仕様駆動開発)」を掲げる次世代エージェントIDEです。

  • Specs:requirements.md・design.md・tasks.mdの3ファイルへ自動展開。コードはこの仕様から「ビルドされる成果物」として扱われる。
  • Hooks:ファイル保存・コミット・リポジトリイベント検知で自動エージェントアクション実行。
  • Steering Files:プロジェクト全体のコンテキストを保持し全インタラクションに自動付与。
  • Kiro Powers:AWS MCP Server(2026年5月GA)でリアルタイムAWSサービス文脈取得。
  • Kiro Autonomous Agent:バックグラウンドでタスクをピックアップしPRを自動生成。

モデル:Claude Sonnet(推論)とAmazon Nova(コード生成)をBedrockでルーティング。価格:Free(50インタラクション/月)、Pro $19/月。

📌 向いている用途:AWS中心の開発チーム、要件定義からコード生成を一貫管理したい中〜大規模プロジェクト。ソロ・探索的開発にはSpec作成の摩擦あり。

■ Google Antigravity 2.0 ── I/O 2026(2026年5月)発表(★重要★)

【確認済み】Google AntigravityはGoogle I/O 2026(2026年5月19日)でv2.0を発表した実在のツールです。
Google Developers Blog公式発表・TechCrunch・MarkTechPost等複数の独立報道で確認済み。旧WindsurfチームがGoogleに買収され(GoogleはWindsurfのCEO等を$2.4Bのライセンス契約で獲得)、その技術・人材を核に開発。

Antigravity 2.0の主要コンポーネント(I/O 2026発表)

  • Antigravity 2.0デスクトップアプリ:複数AIエージェントを並列実行、バックグラウンドでタスクを自動スケジューリング。エディタビュー(同期コーディング)とエージェントビュー(非同期自律実行)の二面構成。VS Codeフォーク(旧Windsurf技術ベース)。
  • Antigravity CLI:旧Gemini CLIを置き換える軽量コマンドラインツール。
  • Antigravity SDK:カスタムエージェント構築用SDK。
  • Managed Agents(Gemini API):APIコール1つで隔離Linuxサンドボックス上のエージェントを起動。Gemini 3.5 Flash搭載。マルチターンセッションで状態が永続化。
  • Android/Firebase統合:単一プロンプトでAndroidアプリを生成しGoogle Play Consoleのテストトラックへ直接公開。
  • Gemini Enterprise Agent Platform:Google Cloudと接続したエンタープライズ向けエージェント管理基盤。

対応モデル:Gemini 3.5 Flash(メイン)、Gemini 3.5 Pro、Claude Sonnet 4.6、Claude Opus 4.6、GPT-OSS 120B(Gemini以外はBYOK)。

価格(I/O 2026時点で確認):Free(レート制限付き)、Pro $20/月(Google AI Proと紐付け)、Ultra $100/月(I/O 2026で新設。以前の$249.99を$100に値下げ)、Teams・Enterprise(2026年後半予定)。

⚠ 注意点:2026年3月の価格改定(無料枠の大幅削減)で「$20の置き紙」論争が発生。Ultra旧価格$249.99→$100への引き下げはI/O 2026での信頼回復策。構文ハイライトバグ・コンテキスト保持劣化・拡張機能互換性問題など成熟度面での課題も報告。GWorkspaceアカウント非対応(個人Gmailのみ)。JetBrains利用者・.NETバックエンドには対応なし。

📌 向いている用途:Firebase/Androidアプリ開発、GCP/Vertex AI利用チーム、ブラウザ連携エージェントが必要なフロントエンド・Pythonプロジェクト。

■ Windsurf → Devin Desktop(Cognition AI傘下、★2026年6月にリブランド★)

【確認済み】Windsurfの経緯(複雑な買収劇)
①OpenAIが$3B買収に合意報道(2025年5月)→Microsoftの独占条項懸念で破談(2025年7月)
②GoogleがWindsurf CEOバルン・モハン等を$2.4Bのライセンス契約で獲得し、そのチームがAntigravityを開発
③Cognition AI(Devin開発元)が残ったIP・ブランド・チーム(約210名)を約$250Mで買収(2025年7月14日)
2026年6月2日:WindsurfはDevin Desktopとしてリブランド(OTAアップデートで自動移行、設定は引き継ぎ)。Cascadeは2026年7月1日にEOL予定。

Windsurf 2.0(2026年4月15日リリース)の主要機能:SWE-1.5モデル(Cognition製、Claude Sonnet 4.5比13倍高速と主張、950トークン/秒)、Agent Command Center(ローカル+クラウドエージェントのKanban管理)、Codemaps(AI注釈付きコード構造視覚化)、Devin統合(クラウドVM上での自律タスク実行)。SOC2/HIPAA/FedRAMP/ITAR対応。

現行価格(Windsurf/Devin Desktop):Free、Pro $20/月、Max $200/月、Teams $40/席、Enterprise(要問合せ)。

■ OpenAI Codex

クラウドサンドボックス型エージェント。各タスクが専用隔離環境で並列実行、PR自動生成。GPT-5.5(2026年4月)搭載。GPT-5.1-Codex-Maxはcompaction技術で複数コンテキストウィンドウを横断し24時間以上の自律稼働が可能。2026年4月時点で週間アクティブユーザー300万人超。NVIDIAで10,000人超が利用。ChatGPT Pro/Plus/Team/Enterpriseで利用可。

■ JetBrains AI Assistant + Junie

IntelliJ IDEA等にネイティブ統合。Junie(自律エージェント、2026年1月投入)はClaude Agent SDK・MCP対応。ローカルモデル(Ollama/LM Studio)対応、BYOK対応。AI Pro $10〜AI Ultimate Business $60。ヘビーなJunieエージェント使用でクレジット急消費の不満報告あり。

■ Tabnine(プライバシーファースト・エンタープライズ特化)

SOC2 Type II・ISO27001・GDPR・HIPAA・ITAR対応。4モードのデプロイ:SaaS/VPC/オンプレミス/エアギャップが最大の差別化。2025年4月に無料版終了。Code Assistant $39、Agentic Platform $59。

3. OSSツール・ローカルLLM

ツール ライセンス 特徴 GitHubスター(概数) 2026年動向
OpenHands
(旧OpenDevin)
MIT Dockerサンドボックスで完全自律。LiteLLM経由で100以上のプロバイダ対応 〜70k+ Software Agent SDK v1.0リリース
Cline Apache 2.0 VS Code拡張。Plan/Act承認ワークフロー。30以上のプロバイダ対応 〜60k+ 並列エージェント+Kanban、Slack/Linear連携追加
Aider Apache 2.0 ターミナルCLI。Git自動コミット。SWE-benchmark高スコア 〜41k ⚠ 2026年にメンテナンスモード移行との報告
Continue.dev Apache 2.0 VS Code/JetBrains/Neovim対応。100以上のモデル接続、BYOK 〜31k 設定駆動でローカルLLMと組み合わせ容易
Tabby (TabbyML) Apache 2.0 セルフホスト型補完サーバー。Qwen2.5-Coder/StarCoder2等をGPUで自前ホスト 〜33k チーム認証・リポジトリインデックス対応
Zed GPL-3.0 / Apache(一部) Rust製高速エディタ。Zeta2オープンモデル、ACP経由でClaude/Codex接続 〜60k+ 2025年8月Sequoia主導$32M Series B。エージェント並列実行
Void MIT VS Codeフォーク。プライバシー特化、バックエンドを経由せず直接LLMへ接続 完全オフライン・エアギャップ運用可

※スター数は出典・時点により幅あり。Roo Code 2026年5月アーカイブ等、OSSの持続性リスクにも留意。

4. コスト・ROI比較(2026年6月時点)

ツール 個人 チーム/ビジネス 無料枠 備考・注意点
GitHub Copilot Pro $10 / Pro+ $39 / Max $100 Business $19/席 / Enterprise $39/席 あり(補完2,000回/月) 2026年6月〜AIクレジット従量課金移行。2026年4月下旬に個人新規登録を一時停止
Cursor Pro $20 / Ultra $200 Business $40/席 Hobby(無料) エージェント多用でクレジット急消費の事例
Claude Code Pro $20 / Max $100・$200 Team Standard $25/席 / Premium $150/席 なし 5時間ローリングウィンドウ+7日週次上限。エンタープライズで$500〜$2,000/月/人のケースも
Google Antigravity Pro $20 / Ultra $100 Teams・Enterprise(2026年後半予定) あり(レート制限付き) Ultra旧価格$249.99→I/O 2026で$100に引き下げ。Claude等Gemini以外はBYOK追加課金
AWS Kiro Pro $19/月 要問合せ あり(50インタラクション/月) Q Developerは2027年4月30日にサポート終了
Windsurf
(Devin Desktop)
Pro $20 / Max $200 Teams $40/席 / Enterprise(公開) あり(25クレジット/月) 2026年6月2日にDevin Desktopへ自動移行。Cascade 2026年7月1日EOL
JetBrains AI AI Pro $10 / Ultimate $30 Pro Business $20 / Ultimate $60/席 AI Free(3クレジット/月) Junieエージェントがクレジット急消費との報告
Tabnine Code Assistant $39 Agentic Platform $59 / Enterprise要問合せ なし(2025年4月終了) エアギャップ対応が最大差別化
OSS各種
(Continue/Cline/Aider等)
無料(API実費のみ) 同左(セルフホスト) 完全無料 Tabby+ローカルLLMなら人数無制限でCopilot Business相当以下も可能

※価格は各社公式・報道ベース。2025〜2026年は変更頻度が非常に高いため、契約前に必ず公式情報を確認のこと。

5. 開発効率・生産性データ:「+55.8%」と「−19%」の両方が正しい理由

ポジティブなエビデンス

  • GitHub/MIT RCT(2023、arXiv:2302.06590):HTTPサーバー実装タスクでCopilot利用群が55.8%高速化(95%信頼区間21〜89%)。
  • GitHub×Accenture RCT:初期利用者の成功率96%、85%が「コード品質への自信が向上」。
  • DX(Developer Experience) 2026測定:AI日常利用者は非利用者比でPR 2.3件/週 vs 1.4件(60%のスループット優位)。
  • JetBrains 2026年1月調査:89%が週1時間以上の時間節約を報告、20%が週8時間以上節約。

ネガティブ・注意喚起のエビデンス

  • METR RCT(2025年7月、arXiv:2507.09089):16名の熟練OSS開発者・246タスク(平均約2.2万★、100万行超リポジトリ、Claude 3.5/3.7 Sonnet+Cursor Pro)で、AI利用時に完了時間が19%増加(信頼区間+2%〜+39%)。開発者本人は「24%短縮した」と認識しており大きな認識ギャップ。
  • DORA 2025レポート(約5,000人):AI採用率90%。「AIは組織能力の増幅器であり、強い組織を強化し、断片化した組織では技術的負債と不安定性を拡大する」。
  • Faros AIテレメトリ(22,000人規模):PRレビュー時間中央値441%増、バグ54%増(「Acceleration Whiplash」)。
  • Findy自社実験(2026年1月):「シニア層3〜5割向上、若手層2〜3割低下」でチーム全体として生産性向上なしと報告。

💡 解釈:「定型コード・ボイラープレート・テスト生成」では明確に高速化する。しかし「熟知した大規模コードベースでの複雑な変更」ではむしろ遅くなりうる。AIの価値は自動テスト・コードレビュー体制などDevOps成熟度に大きく依存する。スループット指標だけで評価することの危険性に注意。

6. エンタープライズ対応・主権AI

ツール 主な認証 データ学習 オンプレ/エアギャップ SSO/SAML
Claude Code SOC2 Type II、ISO27001、ISO42001、FedRAMP High(AWS GovCloud経由) 既定で学習なし Bedrock/Vertex/Azure経由 Enterprise対応(SCIM・監査ログ・Compliance API)
GitHub Copilot IP補償、コード非学習を明記 Business/Enterpriseで非学習 クラウド中心 Enterprise(SAML SSO)
Tabnine SOC2 Type II、ISO27001、GDPR、HIPAA、ITAR ゼロデータ保持 4モード(エアギャップ対応) 対応
GitLab Duo FedRAMP Moderate ATO(2025年5月) 設定可 Self-Hosted(vLLM/Bedrock、エアギャップ可) 対応
Windsurf(Devin Desktop) SOC2、HIPAA、FedRAMP/DOD、ITAR ZDRオプション カスタムデプロイ RBAC/SCIM
Cursor SOC2のみ 設定で非学習 なし Business以上
Continue.dev
+ローカルLLM
OSS(自前管理) 完全ローカル 完全エアギャップ可 設定次第

日本の主権AI動向

  • GENIAC(経産省・NEDO):基盤モデル開発支援プログラム。第3期(2025年8月開始、24テーマ)。GENIAC-PRIZE(総額約8億円)。
  • AI事業者ガイドライン(第1.2版、2026年3月31日):ソースコード・営業秘密の保護を明記。AI推進法(2025年9月全面施行)を背景とする非拘束的ソフトロー。
  • PLaMo(Preferred Networks):純国産スクラッチLLM。PLaMo 3.0 Prime(2026年3月)は日本初の国産スクラッチ推論LLM。オンプレ実装可、GENIAC支援。

7. 日本市場の導入実態

  • メルカリ:2025年8月「AI-Native Company」宣言。社員のAIツール利用率95%超、AIによる新規コード生成比率70%超、エンジニア1人あたり開発量前年比64%増(各社公式ブログ)。使用ツール:Cursor・Claude Code・Devin。
  • サイバーエージェント:開発AIエージェント導入に年間約4億円投資。エンジニア約1,200名に月額$200補助。導入約1年半で開発工数の約4割をAIが補完(同社プレスリリース)。
  • NTTデータ:グループ国内で約2,000ユーザーが70以上のプロジェクトで利用。将来5,000ユーザーへ(公式ブログ)。
  • NTTドコモグループ:2025年11月時点で3,647人がGitHub Copilotを業務利用、1日平均約1,000人アクティブ(IT Leaders報道)。
  • YOUTRUST:Devin試行でPR 176件中113件マージ(マージ率64.2%)、推定360時間分を代替(同社Tech Blog)。

一方でFindy(n=798)の開発生産性実態調査では、VisualSourceSafe・Subversionなど従来型ツールが依然残存し、「コード管理ツールの選択がAI活用格差に繋がる可能性」が指摘されています。

8. 2026年の注目トレンド

  1. 「エージェントIDEへの大転換」:AWS KiroのSpec-Driven、Google AntigravityのManaged Agents、Claude CodeのDynamic Workflows(最大1,000 subagent)、WindsurfのDevin統合など、プロバイダ各社が「チャット補助を超えた自律実行」を主軸に。コード補完ツールとしてのポジショニングは縮小。
  2. 課金の従量化と「請求ショック」:GitHub Copilotの2026年6月クレジット移行を皮切りに各社が従量化。エージェントが単一リクエストでプラン月額を超えるケースが出現。Microsoftでは個人当たり月$500〜$2,000の事例も。コスト可視化・管理が競合優位の新要素に。
  3. 信頼ギャップとレビュー文化の再定義:採用拡大にもかかわらず信頼度は低下(Stack Overflow 2025:29%)。「AI生成コードを誰が・どうレビューするか」がDevOps成熟度と直結。
  4. 主権AI・データ主権の選定基準化:EU AI Act(2026年8月適用開始)、日本のGENIAC・AI推進法を背景に、オンプレ/エアギャップ/国産モデルへの需要が規制業界で急増。
  5. OSSエコシステムの淘汰と再編:Roo Codeアーカイブ・Aiderメンテナンスモード移行など持続性リスクが顕在化。「2年後も継続されるか」が選定基準に。
  6. マルチツール併用の常態化:Pragmatic Engineer調査で70%が2〜4ツール同時使用。「IDE統合(Cursor/Copilot)+ターミナルエージェント(Claude Code/Codex)+セキュリティ(Qodo等)」のレイヤー化が定着。

9. 用途・組織規模別の推奨

ケース 推奨ツール 理由
個人開発者・学生 Copilot Free / Continue.dev+ローカルLLM 無料で始められる。本格利用ならCursor Pro ($20)かCopilot Pro ($10)。完全無料ならAider/Cline+Ollama+Qwen2.5-Coder
スタートアップ Cursor + Claude Code 2026年の主流パターン。日常コーディングはCursor、複雑な自律タスクはClaude Codeの二刀流(70%のエンジニアが2〜4ツール併用)
中規模チーム(GitHub中心) GitHub Copilot Business 管理機能・監査ログ・IP補償。2026年6月以降はクレジット消費監視が必須
AWS中心の開発チーム AWS Kiro Bedrock・CodeCatalyst・IAMとの最深統合。Spec-Driven開発で「バイブコーディング」リスクを構造的に低減
Firebase/Androidアプリ開発 Google Antigravity GCP/Firebase/Androidとの最深統合。単一プロンプトでPlay Consoleへ直接パブリッシュ可能
金融・医療・防衛(規制業界) Tabnine(エアギャップ)/ GitLab Duo Self-Hosted / Continue+ローカルLLM コード外部送信不可環境に対応。CursorはSOC2のみでコンプライアンス審査を通りにくい
日本企業(主権AI重視) PLaMo+セルフホスト / Tabnine / Continue+国産モデル GENIAC対応・純国産スクラッチLLM(PLaMo 3.0 Prime)。政府・金融機関向け主権性要件に対応

まとめ

2026年のAIコーディングツール市場は「補完アシスタント」から「エージェントIDEプラットフォーム」へと軸足を移しています。CursorとGitHub CopilotがIDEとして普及率を競い、Claude CodeとOpenAI Codexがエージェント層を制しようとし、Google AntigravityとAWS KiroはそれぞれAntigravity(エージェントファースト)とSpec-Driven開発という独自パラダイムで参入。そしてWindsurf(Codeium)はCognitionに買収されDevin Desktopへと統合される激動の動きも起きています。

メルカリ・サイバーエージェントを筆頭に日本企業でも本格導入が進んでいますが、「スループットは上がったがバグも増えた」というFaros AIやFindyの指摘が示すように、ツールの選択よりもレビュー体制・テスト文化・DevOps成熟度の整備が先決という側面もあります。

「どのツールを使うか」ではなく、「どう組み合わせ、どうガバナンスを整えるか」——それが2026年のAIコーディング戦略の核心です。


免責・注意事項:本記事の価格・仕様・シェアデータは2026年6月17日時点のもので、頻繁に変更されます。契約前に必ず各社公式を確認してください。市場規模・将来予測は推計値。生産性データはタスク種類・環境・測定方法に大きく依存します。ベンダー発表値はマーケティング目的を含む場合があります。Menlo VenturesのClaude Code 54%シェアはAnthropicへの出資者による自己申告型サーベイです。
本記事は情報セキュリティばんざい!(kuniyon.blogspot.com)の掲載記事です。

火曜日, 6月 16, 2026

競合AIモデル徹底比較:Claudeティア(Mythos/Fable・Opus・Sonnet・Haiku)を基準軸とした2026年6月時点の整理

はじめに:評価の信頼性をどう読むか

本稿では Anthropic Claude の4階層(Mythos/Fable・Opus・Sonnet・Haiku)を共通の「ものさし」として、他社モデルを相対的に位置づける。ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。

独立評価あり:Artificial Analysis・SWE-rebench・LMArena等の第三者機関による評価
⚠️ ベンダー自己申告:各社公式ブログ・プレスリリースの値(条件・方法が非公開のケースあり)
評価データ不十分:独立評価が存在しないか入手できなかったモデル
(暫定):未発売・β版・発表のみで本格評価未実施
⚠️ 重要:Claude Fable 5とMythos 5は2026年6月12日(ET 17:21)に米政府の輸出管理指令を受け、全顧客向けアクセスを停止中。他のClaudeモデルへの影響なし。Mythos/Fable級の対応関係は規制解除を前提とした参照軸として使用する。

Claude 4階層の定義(基準軸)

AA Intelligence Index(0〜100)=Artificial Analysisによる独立評価合成スコア。SWE-bench VerifiedとSWE-bench Proは別指標のため直接比較不可。

ティア モデル 価格(入力/出力 per 1M) AA Index 主要ベンチマーク
⚠️ Mythos/Fable級
(停止中)
Fable 5
(6/9リリース→6/12停止)
$10 / $50 65
全モデル1位
SWE-bench Pro 80.3% ⚠️
🔵 Opus級 Opus 4.8
(2026/5/28)
$5 / $25
Fast: $10/$50
61 SWE-bench Verified 88.6% ⚠️
SWE-bench Pro 69.2% ⚠️
GPQA Diamond 93.6% ⚠️
GDPval-AA 1890 Elo ✅
🟢 Sonnet級 Sonnet 4.6
(2026/2/17)
$3 / $15 44
非推論モード
SWE-bench Verified 79.6% ⚠️
OSWorld 72.5% ⚠️
⚪ Haiku級 Haiku 4.5
(2025/10)
$1 / $5 高速・低コスト・ルーティング向け

カテゴリ1:フロンティアモデル(OpenAI・Google)

OpenAI

Claudeティア モデル 価格(per 1M) AA Index 特徴・ベンチマーク
Mythos/Fable級
(暫定)
GPT-5.5 Pro
2026/4/24
$30 / $180 ❓(未評価) 最高精度重視の最上位バリアント。FrontierMath Tier 4 39.6% ⚠️。独立評価データ不足のため(暫定)
Opus級 GPT-5.5
2026/4/23
$5 / $30 60
AA独立・3位
GPT-4.5以来の完全再訓練・ネイティブ全モーダル。Terminal-Bench 2.0 82.7% ⚠️でOpus 4.8を上回る。SWE-bench Pro 58.6% ⚠️はOpus 4.8(69.2%)より低い。コンテキスト1M
Sonnet〜Opus下位 GPT-5.4
2026/3
$2.50 / $15 57 GPT-5.5の前世代。コスト効率の良い汎用モデル。コンテキスト1M
Haiku級 GPT-5.4 mini $0.75 / $4.50 量産向けバランス型。コンテキスト400K
Haiku級以下 GPT-5.4 nano $0.20 / $1.25 分類・抽出・ルーティング専用。最廉価帯
📌 AA独立評価ではOpus 4.8(61)がGPT-5.5(60)を僅差でリード。GPT-5.5はTerminal-Bench 2.0(82.7% vs 74.6%)で優位。Opus 4.8はSWE-bench Pro(69.2% vs 58.6%)とGDPval-AA Elo(1890 vs 1769)でリード。API入力価格は$5/1Mで同一水準になった。

Google

Claudeティア モデル 価格(per 1M) AA Index 特徴・ベンチマーク
Mythos/Fable級
(暫定・未発売)
Gemini 3.5 Pro
【6月下旬目標・未発売】
未発表 ❓(未発売) Google I/O 2026(5/19)発表のみ。コンテキスト2M・Deep Thinkモード搭載予定。全情報(暫定)
Opus級 Gemini 3.1 Pro
2026/2/19 Preview
$2 / $12
(200K超: $4/$18)
57 GPQA Diamond 94.3% ✅(AA独立) / HLE 44.4% ⚠️ / ARC-AGI-2 77.1% ⚠️。Deep Think(HLE 48.4%)はAI Ultra(約$250/月)限定。マルチモーダル最強クラス。コンテキスト1M(GA時2M)
Sonnet級
コーディング/エージェントで
3.1 Pro超え
Gemini 3.5 Flash
2026/5/19 GA
$1.50 / $9
(キャッシュ: $0.15)
55 Terminal-Bench 2.1 76.2% ✅ / MCP Atlas 83.6% ✅ / MMMU-Pro 84% ✅(AA独立)。コーディング・エージェントで3.1 Proを上回る。約4倍高速。⚠️出力$9/Mは旧Gemini 3 Flash($3/M)の3倍
Haiku〜Sonnet下位 Gemini 3 Flash
2025/12/17
$0.50 / $3 46 旧Geminiアプリ既定モデル。バランス型
Haiku級 Gemini 3.1 Flash-Lite $0.25 / $1.50 コスト効率重視。コンテキスト1M
Haiku級以下 Gemini 2.5 Flash-Lite $0.10 / $0.40 Gemini APIで最廉価。バッチ・大量分類向け

カテゴリ2:準フロンティアモデル

⚠️ 重要な格付け是正:Mistral Large 3(AA 23)とNova Premier(AA 19)は独立評価ではHaiku級相当。ベンダー資料から受ける「Sonnet相当」イメージとは大きく乖離する。価格・ライセンス・エコシステム統合で選ぶモデルであり、汎用インテリジェンス性能には期待値調整が必要。
Claudeティア モデル(会社) 価格(per 1M) AA Index 特徴・ベンチマーク
Opus下位
(コスパ最高)
Grok 4.3(xAI)
2026/4/30
$1.25 / $2.50 53
Gemini 3.5 Flash(55)より低い
GPQA Diamond 90.1% ✅(AA独立)。169 t/sの高速。Opus 4.8比で入力1/4・出力1/10。コンテキスト1M(200K超は高単価)
Haiku〜Sonnet下位 Grok 4.1 Fast(xAI) $0.20 / $0.50 コンテキスト2M(競合最大クラス)。大量処理・ルーティング向け
⚠️ Haiku級相当
(格付け要注意)
Mistral Large 3(Mistral AI)
2025/12/4
$0.50 / $1.50 23
⚠️ Sonnet 4.6(44)の約半分
GPQA Diamond 約44% ✅(AA独立)。⚠️AA Indexは23でHaiku級相当。主な強みは価格($0.50/$1.50)・EUベース・Apache 2.0・GDPR準拠。675B MoE(アクティブ41B)、コンテキスト262K
Haiku級
(コード特化)
Codestral 2508(Mistral AI)
2025/8
$0.30 / $0.90 ❓(汎用指標外) FIM補完・IDE統合向け低レイテンシ。コンテキスト32K
(暫定)Sonnet級
(RAG特化)
Command A(Cohere)
2025/3/13
$2.50 / $10 ❓(AA未掲載) オープンウェイト111B。A100/H100×2基で動作。エンタープライズRAG・引用付き応答・多言語に強み。汎用独立評価なしのため(暫定)
Haiku級
(オンデバイス)(暫定)
Phi-4(Microsoft)
2024/12
Azure経由 ❓(AA未評価) 14B密結合。GPQA Diamond 56.1% ⚠️ / HumanEval 82.6% ⚠️(Microsoft公式)。エッジ・オンデバイス向け
⚠️ Haiku下位〜Haiku級
(格付け要注意)
Amazon Nova Premier(AWS)
2025/10/31
$2.50 / $12.50 19
⚠️ 同価格帯中央値(22)以下
⚠️AA Index 19はHaiku下位〜Haiku相当。SWE-bench Verified 42.4% ⚠️(Amazon公式)。コンテキスト1M・蒸留教師機能がAWS環境での存在価値。$2.50/$12.50は性能対価格で割高
Haiku級 Nova Lite / Micro(AWS) 低価格帯 Bedrock高速・低コスト。大量API呼び出し向け

カテゴリ3:中国系モデル

2026年最大の変化は「Opus級性能を1/10〜1/30の価格で提供する中国系モデルの台頭」。ただしArtificial Analysisはベンチマーク汚染(contamination)の懸念を指摘しており、独立評価スコアを優先して読む必要がある。

Claudeティア モデル(会社) 価格(per 1M) AA Index・ライセンス 特徴・ベンチマーク
Opus下位〜Sonnet上位
(コスパ最高)
DeepSeek V4-Pro(DeepSeek)
2026/4/24
$0.435 / $0.87
(2026/5/22恒久値下げ)
52(Max)/ 50(High)✅
MIT
SWE-bench Verified 80.6% ⚠️(自己申告)。1.6T MoE/49Bアクティブ。出力単価でOpus 4.8の約1/29。AA Index 52はOpus 4.8(61)に対し9ポイント差。コンテキスト1M(出力384K)。⚠️ベンチマーク汚染の指摘あり
(暫定)Sonnet級 DeepSeek V4-Flash(DeepSeek)
2026/4/24
$0.14 / $0.28
MIT
284B/13Bアクティブ。V4-Pro比で高速・低コスト。量産向け。独立評価データ不足のため(暫定)
Opus級
(Gemini 3.1 Pro相当)
Qwen3.7 Max(Alibaba)
2026/5/19〜21
$1.25〜2.50 / $3.75〜7.50
(プロバイダーにより差異)
57
クローズド
GPQA Diamond 92.3〜92.4% ✅(AA独立)。AA Index 57でGPT-5.4・Gemini 3.1 Proと同水準。回答試行率が48%と低く難問棄権が多い。コンテキスト1M
(暫定)Sonnet下位〜Haiku上位 Qwen3-235B-A22B(Alibaba)
2025/4
$0.46 / $1.82
Apache 2.0
ArenaHard 95.6% ⚠️ / Codeforces Elo 2056 ⚠️(Alibaba公式)。オープンウェイトMoE。自己ホスティング可能。AA独立評価なく(暫定)。コンテキスト131K
Sonnet上位〜Opus下位
(エージェント特化)
Kimi K2.6(Moonshot AI)
2026/4/20
$0.60〜0.95 / $2.50〜4.00
(プロバイダーにより差異)
54
Modified MIT
AA Index 54(Grok 4.3の53を上回る) ✅。SWE-bench Pro 58.6% ⚠️(Moonshot公式)。1T MoE/32Bアクティブ。Agent Swarm(300サブエージェント・13時間連続稼働)。コンテキスト262K
(暫定)Sonnet下位〜Haiku上位 Doubao Seed 2.0 Pro(ByteDance)
2026/2/14
約$0.47 / $2.37 ❓(AA未評価)
クローズド
AIME 2025 98.3 ⚠️ / GPQA Diamond 88.9% ⚠️(ByteDance公式)。独立評価なく(暫定)。⚠️ByteDance製品は日本企業調達審査で懸念が挙がるケースあり。コンテキスト256K
⚠️ 中国系共通注意点:①AA社がSWE-bench等でベンチマーク汚染を指摘。SWE-rebenchで中国系モデルはスコアが下がるケースあり。②Kimi K2.6はAA独立評価済み(54)だがDoubao Seed 2.0 Proは未評価で信頼性に差あり。③ByteDance(TikTok関連)製品は日本企業調達審査で懸念事例あり。

カテゴリ4:日本国産モデル

汎用国際ベンチマークでは海外フロンティアに大差がある。2025年12月時点のNejumi Leaderboard 4(日本語総合)では上位50モデル中に国産LLMは1モデルのみ。ただし日本語精度・データ主権・国内サポート・政府調達適格性では独自ポジションを確立している。

デジタル庁は2026年3月6日、政府AI「源内」向けに15社応募から7モデルを選定。2026年8月試用開始・2027年1月評価公表・4月以降有償調達判断という工程。

源内選定7モデル(全て❓独立評価なし)

モデル(企業) Claudeティア 規模・方式 特徴・注意点(ベンチマークは全て⚠️自社評価)
PLaMo 2.0 Prime(PFN)
2026/1
(❓)Haiku級 8B/31B
フルスクラッチ
JFBenchでGPT-5.1相当(自社評価)。独自トークナイザでトークン効率45%改善。自治体150以上に導入実績
Takane 32B(富士通) (❓)Haiku級 32B
Cohere Command R+ベース共同開発
JGLUEで世界最高クラス(自社評価)。中央省庁実証で関連条項の80%超を特定。Cohere依存がソブリンAI観点での懸念点
tsuzumi 2(NTTデータ)
2025/10
(❓)Haiku級 30B
フルスクラッチ
H100 GPU 1基で動作する軽量設計。医療・金融分野で実証知見あり
cotomi v3(NEC)
2025/7
(❓)Haiku級 非公開
独自開発
コンテキスト128K(日本語換算約20万語)。MCP準拠・エージェント機能搭載。⚠️「cotomi Act」のWebArena 80.4%はv3本体ではなく別技術の条件付き評価値。自治体・金融・医療の実証知見が強み
ELYZA-JP-70B(KDDI・ELYZA) (❓)Haiku〜Sonnet下位 70B
Llamaベース日本語特化
医療特化版はIgakuQAで最高スコア(自社評価)。Llamaエコシステム互換性が強み
Sarashina2 mini(SoftBank) (❓)Haiku級 460B MoEから蒸留
フルスクラッチ基盤
H100×6,000台規模インフラで基盤開発。みずほ・中外製薬と特化モデル共同開発
CC Gov-LLM(カスタマークラウド) (❓暫定)Haiku級 非公開 行政実務特化。ほぼ全情報が非公開

源内選定外:注目の高性能国産モデル

モデル(企業) Claudeティア 規模・ライセンス 特徴・注意点(ベンチマークは全て⚠️自社評価)
PLaMo 3.0 Prime β(PFN)
2026/3/19発表・6月中旬商用化予定
(❓暫定)Haiku〜Sonnet下位 非公開(β版)
フルスクラッチ
国産初の長考(Reasoning)対応LLM。NICTとの共同開発で日本語推論強化。β版段階のため独立評価なし。全情報(暫定)
Rakuten AI 3.0(楽天)
2026/3/17公開
(❓暫定)Haiku〜Sonnet下位 約700B MoE(有効約40B)
Apache 2.0
日本語MT-Bench 8.88(GPT-4oの8.67超)(自社評価)。国内企業公開LLM最大規模。GENIAC第3期採択。商用・改変・再配布が完全自由。国際独立評価なし(暫定)
Stockmark-2-100B(ストックマーク)
2025/3公開・9月NVIDIA NIM対応
(❓)Haiku級 100B・1.5兆トークン事前学習
MIT
国産フルスクラッチオープンモデル中最高性能(自社比較)。ビジネスQ&AでGPT-4oを僅かに上回る(自社評価)。NVIDIA NIM対応。トヨタ・パナソニック等に導入実績あり
⚠️ 国産モデル共通注意事項:性能データは大半が自社評価値(⚠️)で、Artificial Analysis等の国際独立評価が存在するものはゼロ。「JGLUEで世界最高」「GPT-4超え」等は評価条件・比較対象バージョンに強く依存する。2027年1月の源内評価結果公表が、初めての政府公式横断比較データになる見込み。

まとめ:Claudeティア対応関係(独立評価ベース)

Claudeティア
(AA Index目安)
フロンティア 準フロンティア・中国系・国産
⚠️ Mythos/Fable級(65・停止中) GPT-5.5 Pro(暫定・❓)
Gemini 3.5 Pro(暫定・未発売・❓)
🔵 Opus級(57〜61) GPT-5.5(60 ✅)
Gemini 3.1 Pro(57 ✅)
GPT-5.4(57 ✅)
【中国系】Qwen3.7 Max(57 ✅)
🟢 Sonnet〜Opus下位(44〜56) Gemini 3.5 Flash(55 ✅)
Gemini 3 Flash(46 ✅)
【準】Grok 4.3(53 ✅)/ Command A(❓暫定)
【中国】Kimi K2.6(54 ✅)/ DeepSeek V4-Pro(52 ✅)
DeepSeek V4-Flash・Qwen3-235B・Doubao(全て❓暫定)
【国産】到達なし
⚪ Haiku級(〜23) GPT-5.4 mini・Gemini 3.1 Flash-Lite(共に❓) 【準】Mistral Large 3(23 ✅)/ Nova Premier(19 ✅)/ Phi-4(❓暫定)
【国産】全モデル(PLaMo・Takane・tsuzumi・cotomi・ELYZA・Sarashina・Stockmark・Rakuten AI など)(全て❓)

用途別の選定指針(2026年6月・独立評価ベース)

最高難度・長時間自律タスク:Opus 4.8(AA 61・$5/$25)かGPT-5.5(AA 60・$5/$30)が実績ある最上位の選択肢(Fable 5/Mythos 5は停止中)。コスト感度が高ければDeepSeek V4-Pro(AA 52・$0.435/$0.87)が出力単価1/29でOpus相当に迫るが、ベンチマーク汚染の懸念とデータガバナンス要件の確認が必須。

本番デフォルト(Sonnet〜Opus下位帯域):Qwen3.7 Max(AA 57・$1.25〜2.50)はOpus 4.8に迫る独立評価スコアで費用対効果が高い。Gemini 3.5 Flash(AA 55・$1.50/$9)はコーディング・エージェント特化で3.1 Proを上回る。Kimi K2.6(AA 54)はエージェントスワーム特化。Grok 4.3(AA 53)は低価格で高速。いずれも独立評価付き。Mistral Large 3(AA 23)はGDPR・EU適合性優先時の選択肢だが汎用性能には過度な期待は禁物。

日本語・データ主権・政府/規制業界:汎用タスクはClaude/GPT/Geminiが第一選択。日本語特化ならTakane 32B(日本語ベンチ実績・⚠️)またはPLaMo 3.0 Prime(商用化後・暫定)。オープンウェイト自社チューニングならRakuten AI 3.0(Apache 2.0・❓暫定)またはStockmark-2-100B(MIT・❓)。エンタープライズRAG・MCP連携はcotomi v3(NEC生態系)。2027年1月の源内評価結果公表が本格採用判断の最重要マイルストーン。

本記事のデータは2026年6月15〜16日時点の調査に基づく。AA Intelligence Index v4.0(2026年6月13日スナップショット:BenchLM.ai経由)を参照。最新価格・ベンチマークは各社公式ドキュメントで確認されたい。