はじめに:評価の信頼性をどう読むか
本稿では前回記事のClaudeティア体系(Mythos/Fable・Opus・Sonnet・Haiku)を「ものさし」として、ローカルで動作するオープンウェイトLLMを整理する。Haiku以下については3段階のサブティアを新設した。
ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。
- ✅ 独立評価あり:Artificial Analysis・SWE-rebench・Swallow Leaderboard・Nejumi Leaderboard 4等の第三者評価
- ⚠️ ベンダー自己申告:各社公式ブログ・プレスリリースの値(条件・方法が非公開のケースあり)
- ❓ 評価データ不十分:独立評価が存在しないか入手できなかったモデル
- (暫定):未発売・β版・発表のみで本格評価未実施
ローカルLLMのティア定義(本記事で使用)
| ティア | Claude基準との対応 | パラメータ規模の目安 | 動作環境の目安 |
|---|---|---|---|
| 🟣 フロンティアオープン | Sonnet〜Opus相当 | 100B超(密)または400B超(MoE) | 複数GPU(H100×8等)またはApple M2 Ultra 192GB以上 |
| ⚪ Haiku相当 | Haiku 4.5相当 | 14B〜70B(密) | RTX 3090/4090(24GB)〜RTX 5090(32GB) |
| 🔵 Nano級(新設) | Haiku下位〜準Haiku | 3B〜14B(量子化) | RTX 3060(12GB)/RTX 4060Ti(16GB)または16GB RAM + CPU推論 |
| 🟡 Pico級(新設) | Haiku以下 | 〜3B(量子化) | スマートフォン(iPhone 14 A16 Bionic等)・Raspberry Pi・CPU専用PC |
VRAM要件早見表(2026年6月・Q4_K_M量子化目安)
VRAMはローカルLLM運用の最大ボトルネック。モデルウェイトが収まらないと推論速度が桁違いに低下する。以下は目安値(KVキャッシュ・コンテキスト長は別途加算)。
⚠️ 70BのQ4_K_M(約38〜40GB)はRTX 5090(32GB)単体では短いコンテキスト専用となる。128Kコンテキストには+14GB以上が必要で、デュアルRTX 5090(64GB合計)またはMac Studio M5 Max(128GB統合メモリ)が現実的。
| パラメータ規模 | BF16(フル精度) | Q8 | Q4_K_M | 代表GPU |
|---|---|---|---|---|
| 〜1B | 〜2GB | 〜1GB | 〜0.8GB | スマートフォン・Raspberry Pi(Pico級) |
| 3B | 〜6GB | 〜3GB | 〜2GB | RTX 3060(12GB)・スマートフォン高性能品(Pico〜Nano) |
| 7〜8B | 〜16GB | 〜8.5GB | 〜5GB | RTX 3060(12GB)/RTX 4060(Nano級) |
| 14B | 〜28GB | 〜15GB | 〜9GB | RTX 4060Ti(16GB)/RTX 4070(Nano〜Haiku下位) |
| 27〜32B | 〜64GB | 〜35GB | 〜19GB | RTX 4090(24GB)/RTX 5090(32GB)(Haiku相当) |
| 70B | 〜140GB | 〜74GB | 〜38〜40GB | デュアルRTX 4090(48GB合計)・Mac Studio M5 Max(128GB) |
| 235B-A22B(Qwen MoE) | — | — | 〜120GB | A100×2〜H100×2・Mac Studio M2 Ultra 192GB(フロンティアオープン) |
| 671B(DeepSeek-V3等) | 〜1.3TB以上 | 〜685GB | 〜370GB | H100×8以上・クラウド前提(フロンティアオープン) |
計算式目安:VRAM(GB) ≈ パラメータ(B) × バイト/param × 1.2(BF16=2、Q8=1、Q4_K_M≒0.55)。MoEモデルは総パラメータ全体をVRAMにロードする必要がある(活性パラメータだけでは済まない)。KVキャッシュは70Bモデル・128Kコンテキストで+14GB以上が追加で必要。
カテゴリ1:主要国際オープンウェイトモデル
Qwen系(Alibaba)— オープンウェイト最大勢力 🇯🇵
2026年現在、オープンウェイトの事実上の主役。全シリーズがApache 2.0(商用完全自由)で、日本語能力も高い。
| ティア | モデル | ライセンス | コンテキスト | 特徴・ベンチマーク |
|---|---|---|---|---|
| 🟣 フロンティアオープン | Qwen3.5-397B-A17B 2026/2〜3 |
Apache 2.0 | 1M | フラッグシップMoE。Gated DeltaNet+sparse MoE、201言語対応。BFCL-V4 72.2でGPT-5 miniを上回る⚠️。H100×8以上またはMac Ultra 192GB必須。 |
| 🟣 フロンティアオープン | Qwen3-235B-A22B 2025/4 |
Apache 2.0 | 131K→256K(2507) | ArenaHard 95.6、AIME'24 85.7⚠️。Q4で約120GB。Thinking/Non-thinkingモード切替。 |
| ⚪ Haiku相当 | Qwen3.6-27B 2026/4 |
Apache 2.0 | 262K(〜1M YaRN) | コンシューマーGPUで動作する最強コーディングモデル。SWE-bench Verified 77.2⚠️、SWE-bench Pro 53.5⚠️、GPQA Diamond 87.8⚠️。15倍大きいQwen3.5-397Bのコーディングベンチを凌駕。Dense+ネイティブマルチモーダル。Q4で約18GB(RTX 4090に収まる)。 |
| ⚪ Haiku相当 | Qwen3 32B 2025/4 |
Apache 2.0 | 131K | AIME'24 79.5⚠️。Q4で約19GB。RTX 4090に収まる。 |
| ⚪ Haiku相当 | QwQ-32B 2025年 |
Apache 2.0 | 131K | 推論特化。AIME24 79.5、LiveCodeBench 63.4でDeepSeek-R1(671B)に匹敵⚠️。Q4で24GB。RTX 5090(32GB)推奨。 |
| ⚪ Haiku相当 | Qwen3.6-35B-A3B(MoE) 2026/4 |
Apache 2.0 | 262K | 総35B/3B活性のMoE。Q4で約6〜7GB。RTX 3060(12GB)でも高速動作。速度優先ならこちら。 |
| 🔵 Nano級 | Qwen3 14B / 8B 2025/4 |
Apache 2.0 | 131K | 14B Q4で約9GB(RTX 4060Ti 16GBに収まる)。8B Q4で約5GB(RTX 3060 12GBで動作)。 |
| 🟡 Pico級 | Qwen3 4B / 1.7B / 0.6B 2025/4 |
Apache 2.0 | 131K | 0.6B Q4で約0.5GB。スマートフォン・Raspberry Pi動作可。4B Q4で約2.5GB。CPU推論可。 |
Gemma系(Google DeepMind)— Googleの本気オープン 🇯🇵
2026年4月2日リリースのGemma 4が大きな転換点。Gemmaシリーズ初のApache 2.0に切り替わり、商用利用の懸念が解消された。
| ティア | モデル | ライセンス | コンテキスト | 特徴・ベンチマーク |
|---|---|---|---|---|
| ⚪ Haiku相当 | Gemma 4 31B(Dense) 2026/4/2 |
Apache 2.0(Gemma初) | 256K | MMLU-Pro 85.2、AIME 2026 89.2%⚠️(Gemini 3系と同基盤)。Chatbot Arena #3相当⚠️。画像+音声入力(出力はテキストのみ)。Q4で約17GB(RTX 4090に収まる)。140+言語。 |
| 🔵 Nano級(速度重視) | Gemma 4 26B-A4B(MoE) 2026/4/2 |
Apache 2.0 | 256K | 26B総/4B活性。31B Denseの約97%の品質でQ4時の推論速度は大幅高速。RTX 3090/4090でも高速。Chatbot Arena #6相当⚠️。 |
| 🔵 Nano級 | Gemma 4 E4B(約4.5B) 2026/4/2 |
Apache 2.0 | 128K | テキスト+画像+音声入力。MediaPipe/LiteRT対応。RTX 3060で動作。 |
| 🟡 Pico級 | Gemma 4 E2B(約2.3B) 2026/4/2 |
Apache 2.0 | 128K | スマートフォン・エッジ向け。音声入力対応。ollama run gemma4で1コマンド起動可。 |
| ⚪ Haiku相当 | Gemma 3 27B 2025/3 |
Gemmaライセンス(商用可) | 128K | Chatbot Arena ELO 1339(o1-preview相当)⚠️。MMLU-Pro 67.5、GPQA Diamond 42.4。Q4で約16GB(RTX 4080 16GBに収まる)。先代のリファレンスモデル。 |
DeepSeek系(オープンウェイト版)
⚠️ DeepSeek R2は2026年6月時点で未リリース。 公式発表・APIエントリなし。2026年4月24日にDeepSeek V4(V4-Pro/V4-Flash)がAPIとオープンウェイトで出荷されたのが最新の公式リリース。R2(次世代推論モデル)は噂のみで確認情報なし。
| ティア | モデル | ライセンス | 特徴・ベンチマーク(ローカル動作観点) |
|---|---|---|---|
| 🟣 フロンティアオープン | DeepSeek-V3 / V3.x 671B、2024/12〜 |
MIT | MMLU 88.5、MMLU-Pro 75.9、GPQA 59.1✅(論文記載値)。128Kコンテキスト。FP8で約685GB。SGLang・vLLM・TensorRT-LLM・LMDeploy・AMD・Ascend対応。H100×8前提。 |
| ⚪ Haiku相当 | DeepSeek-R1-Distill-Qwen-32B 2025/1 |
Apache 2.0 | 推論特化蒸留版。AIME 2024 72.6、MATH-500 94.3⚠️。Q4で約19GB(RTX 4090)。 |
| 🔵 Nano級 | DeepSeek-R1-Distill-Qwen-14B / 7B 2025/1 |
Apache 2.0 | 14B Q4で約9GB(RTX 4060Ti 16GBに収まる)。7B Q4で約5GB(RTX 3060)。R1の推論能力を低コストで活用可。 |
| 🔵 Nano級 | DeepSeek-R1-Distill-Llama-8B / 70B 2025/1 |
Llamaライセンス | 8B Q4で約5GB。70B Q4で約38GB(デュアルRTX 4090必要)。AIME 70.0、MATH-500 94.5⚠️(70B)。 |
Llama系(Meta)
⚠️ Llama 4 Behemoth(約2T総/288B活性)は2026年4月時点で学習継続中・未公開。 公式発表で「教師モデル」と位置付けられており、一般向けウェイト出荷の予定は未発表。Behemothをベースとした計画は立てないこと。2026年現在のLocak用途での現実的な選択肢はScoutとMaverick、およびLlama 3.3 70Bとなる。
| ティア | モデル | ライセンス | 特徴・ベンチマーク |
|---|---|---|---|
| 🟣 フロンティアオープン(ハード要求大) | Llama 4 Maverick 400B総/17B活性、2025/4 |
Llama 4 Community(商用可・700M MAU制限) | 1M。128エキスパートMoE。マルチモーダル。MMLU-Pro 80.5⚠️。Q4で200GB+。ローカル動作は非現実的(H100×8以上必要)。 |
| ⚪ Haiku相当 | Llama 4 Scout 109B総/17B活性、2025/4 |
Llama 4 Community | 10Mトークンコンテキストが最大の特徴。MMLU-Pro 74.3✅。16エキスパートMoE。Int4でH100 1基、Q4で約55〜60GB(デュアルRTX 5090または単一H100 80GB)。 |
| ⚪ Haiku相当 | Llama 3.3 70B 2024年末 |
Llama Community | 128K。MMLU Chat 86.0、IFEval 92.1⚠️(405Bを上回る指示追従)。テキスト専用。Q4で約39〜43GB(デュアルRTX 4090必要)。 |
| 🔵 Nano級 | Llama 3.1 / 3.2 8B | Llama Community | 128K。Q4で約5GB(RTX 3060で動作)。エコシステム最大のモデル。微調整版が多数。 |
| 🟡 Pico級 | Llama 3.2 1B / 3B | Llama Community | 128K(ExecuTorchでモバイル版は8K)。Arm/Qualcomm最適化済み。ExecuTorch経由でAndroid/iOS動作実証済み。 |
⚠️ Llamaライセンスの注意点:月間アクティブユーザー7億以上の企業は別途Meta許諾が必要。EUではマルチモーダル版に追加制限あり。OSI基準の「オープンソース」には非該当。
Mistral / Mixtral系
| ティア | モデル | ライセンス | 特徴・ベンチマーク |
|---|---|---|---|
| 🟣 フロンティアオープン | Mistral Large 3 675B総/41B活性、2025/12 |
Apache 2.0(使用制限なし) | 256K。sparse MoE。MATH-500 93.6⚠️。3,000台のH200で学習。商用利用の制限がない点でLlamaとの差別化ポイント。EU・GDPR対応でのデータ主権観点でも強み。 |
| ⚪ Haiku相当 | Mistral Small 3.1 24B 2025/3 |
Apache 2.0 | 128K。Vision対応。単一RTX 4090または32GB RAM MacBookで量子化動作可能。 |
| 🔵 Nano級 | Mistral Nemo 12B | Apache 2.0 | 128K。128Kが扱える中型モデル。Q4で約7GB。 |
| 🔵 Nano級(コード特化) | Codestral 2508 2025/8 |
⚠️ MNPL(非商用) | 256K。FIM補完・IDE統合向け低レイテンシ。ライセンス要注意:非商用のみ。商用IDE統合にはMistral APIが必要。 |
| 🔵 Nano級 | Mistral 7B | Apache 2.0 | 初代。エコシステム豊富。Q4で約4GB。 |
Phi系(Microsoft)— SLMのパイオニア
| ティア | モデル | ライセンス | 特徴・ベンチマーク |
|---|---|---|---|
| ⚪ Haiku下位 | Phi-4(14B) 2024年末 |
MIT | 高品質合成データ学習。GPQA Diamond 56.1、HumanEval 82.6⚠️。Windows/Azure Edgeデフォルト候補。Q4で約9GB(RTX 4060Ti 16GBに収まる)。 |
| 🔵 Nano級 | Phi-4 Mini(3.8B) 2026年初頭 |
MIT | MMLU 73.0でLlama 3.1 8B相当⚠️。Q4で約2.5GB。RTX 4090で300+ tok/s。スマートフォン・Raspberry Pi・WebLLMで動作。推論強化版(reasoning/reasoning-plus)あり。 |
| 🟡 Pico級 | Phi-3 Mini(3.8B) | MIT | MMLU 69、4bit量子化で約1.8GB。iPhone 14(A16 Bionic)での実機動作を実証済み(arXiv技術レポート記載)。WindowsデバイスへのオンデバイスAI実装のリファレンス。 |
GLM系(Zhipu AI / Z.ai)
| ティア | モデル | ライセンス | 特徴・ベンチマーク |
|---|---|---|---|
| 🟣 フロンティアオープン | GLM-5.1 744B総/40B活性、2026/4 |
MIT | SWE-bench Verified 78.9⚠️。tool-use/codings特化。8×H100で自己ホスト可能。 |
| ⚪ Haiku相当 | GLM-4.5-Air 106B総/12B活性 |
MIT | MoE。tool-use/codings特化、reasoning切替対応。tool-useベンチでClaude Sonnet 4を上回る⚠️。12B活性でコンシューマーGPU動作可(総106GBのVRAM必要)。 |
| 🔵 Nano級 | GLM-Z1-9B / GLM-4-9B | MIT | 9B。GLM-4.1V-9B-ThinkingはQwen-2.5-VL-72Bに18ベンチで匹敵⚠️。Q4で約5.5GB。RTX 3060で動作。 |
Kimi系(Moonshot AI)
| ティア | モデル | ライセンス | 特徴・ベンチマーク |
|---|---|---|---|
| 🟣 フロンティアオープン | Kimi K2.6 約1T総/32B活性、2026/4 |
Modified MIT | 256K。AA Index 54✅(前回記事参照)。SWE-Bench Pro 58.6でオープンウェイト最高水準⚠️。スワームサンプリング(300サブエージェント・13時間連続稼働)。 |
カテゴリ2:日本語特化オープンウェイトモデル 🇯🇵
⚠️ 重要な現実:Nejumi Leaderboard 4(2025年12月18日時点)の総合Top50に国産フルスクラッチモデルは1つも入っていない。「オープンウェイトで日本語が最も得意なモデルはQwen系(中国製)」という逆転現象が起きている。一方、データ主権・オンプレ完結・政府調達適格性では国産モデルが不可欠な場面がある。
⚠️ 「日本産」の定義に注意:Swallow系はQwen/GPT-OSSのファインチューン、ELYZAはLlamaベース、Rakuten AI 3.0はDeepSeek V3ベースのファインチューン(後述)。フルスクラッチはPLaMo、LLM-jp、Sarashina、NTT tsuzumi、Stockmark等に限られる。
| ティア | モデル(企業) | ライセンス | 特徴・注意点 |
|---|---|---|---|
| 🔶 フルスクラッチ系(真の国産モデル) | |||
| 🔵 Nano〜⚪ Haiku | Sarashina2-70B(SB Intuitions) 2024/8 |
MIT | フルスクラッチ、約2.1Tトークン学習。日本語QAトップクラス(自社比較⚠️)。指示チューニングなし(ベースモデル)。Q4で約40GB(デュアルRTX 4090必要)。 |
| 🟡 Pico〜🔵 Nano | Sarashina2.2(0.5B/1B/3B)(SB Intuitions) 2025/2〜3 |
MIT・商用可 | 3Bでも日本語数学(MGSM-ja)・コーディング(JHumanEval)でSarashina2-70Bを上回ると報告⚠️。Sarashina2-Vision-8B/14Bも同時期公開。 |
| ⚪ Haiku(暫定) | Stockmark-2-100B(ストックマーク) 2025/3 |
MIT | フルスクラッチ、約1.5Tトークン、GQA・32Kコンテキスト。ビジネスQA 90%(GPT-4o 88%超⚠️自社評価)。NVIDIA NIM対応(2025/9)。トヨタ・パナソニック等に導入実績。 |
| 🔵 Nano(暫定) | LLM-jp-4(国立情報学研究所) 2026年 |
❓(研究利用主体) | 11.7Tトークン学習、Qwen3 MoEアーキテクチャ採用(ウェイトは新規学習)。JP MT-Bench 7.82でGPT-4o(7.29)を上回る⚠️。完全な再現可能性重視の研究用途。 |
| ⚪ Haiku(暫定) | PLaMo 3.0 Prime β(Preferred Networks) 2026/3/19 |
PLaMo Community License(商用要連絡) 1Bモデルのみ Apache 2.0 |
フルスクラッチ再構築、Samba系ハイブリッドアーキテクチャ(Mamba2+attention)。日本初のスクラッチ推論モデル。NICT共同開発。64Kコンテキスト。β版・商用版は6月中旬以降予定。独立評価なし(暫定)。 |
| 🔵 Nano | NVIDIA Nemotron Nano 9B v2 Japanese 2026/2/17 |
NVIDIA Nemotron Open Model License | Mamba-2+Transformerハイブリッド。128Kコンテキスト。Nejumi Leaderboard 4 sub-10Bカテゴリ1位(TOTAL_AVG約0.711)✅。日本語9B以下最強候補。 |
| 🔶 ファインチューン系(ベースモデルに注意) | |||
| 🟣 フロンティアオープン(暫定) | Rakuten AI 3.0(楽天) 2026/3/17 |
Apache 2.0(⚠️当初MIT削除問題あり) | ⚠️ DeepSeek-V3ベースのファインチューンと判明(config.jsonに"deepseek_v3")。リリース数時間でコミュニティが発見し炎上。当初MIT削除でライセンス違反、批判後にNOTICEファイル追加で対処。GENIACプロジェクト(経産省・NEDO)資金。日本語ベンチで優秀(自社比較⚠️)だが「国産AI」としての位置づけは要注意。DeepSeek懸念がある組織は調達審査が必要。 |
| 🔵 Nano | Rakuten AI 2.0(8x7B MoE)/ mini(1.5B)(楽天) 2025/2/12 |
Apache 2.0 | 47B総/13B活性MoE。Japanese MT-Bench 7.08⚠️。HuggingFace公開・実際にローカル動作実績あり。mini(1.5B)も同日公開、Apache 2.0。 |
| ⚪ Haiku下位〜Haiku | GPT-OSS Swallow 120B(東京科学大学/AIST) 2026/2/20 |
GPT-OSSベースの制限に依存 | GPT-OSSに日本語継続事前学習。JP MT-Bench 0.916でGPT-5.1 Thinking(0.897)を上回る✅。知識スコアは低め(0.642)と品質に乖離あり。120BはQ4でH100必要級。 |
| 🔵 Nano | Llama-3-ELYZA-JP-8B(ELYZA/KDDI) 2024/6 |
Llama 3 Community | LlamaベースのJP特化FT。HuggingFaceでGGUF/AWQ版も公開。Q4で約5GB。デジタル庁「政府AI」プログラムに70B版が採用(70B版はウェイト非公開)。 |
| ⚪ Haiku下位 | ELYZA-Thinking-1.0-Qwen-32B(ELYZA/KDDI) 2025/5頃 |
Apache 2.0 | Qwen2.5-32B-InstructベースのJP特化チューニング。HuggingFace公開、128Kコンテキスト。Swallowリーダーボードに収録。 |
⚠️ 国産モデル共通注意事項:性能データは大半が自社評価値(⚠️)で、Artificial Analysis等の国際独立評価が存在するものはゼロ(2026年6月時点)。「JGLUEで世界最高」「GPT-4超え」等は評価条件・比較対象バージョンに強く依存する。2027年1月の政府AI「源内」評価結果公表が初の政府公式横断比較データになる見込み。
カテゴリ3:推論フレームワーク比較(2026年6月)
| フレームワーク | 形式 | 推奨用途 | 特徴・注意点 |
|---|---|---|---|
| Ollama | GGUF中心 | 個人・開発者入門 | 最も簡単な1コマンド起動。Apple Silicon MLXバックエンド対応(0.19〜、2026/3)。主要モデル(Llama/Qwen/Gemma/DeepSeek/Phi/Mistral)全対応。単一ユーザー前提・マルチユーザー本番には不向き。 |
| llama.cpp(GGUF) | GGUF | 最軽量・低スペック環境 | CUDA/ROCm/Vulkan/Metal/CPU全対応。最軽量・最広範な互換性。Qwen 3.6 MTP対応。LM Studioの内部エンジン。 |
| vLLM | HuggingFace/FP8 | 本番マルチユーザーサーバー | PagedAttention+継続バッチングで高並列時にOllamaの十数倍〜20倍スループット(同一ハード)。DeepSeek V4 on Blackwell対応(v0.21)。NVIDIA/AMD/TPU/Ascend/Apple対応。本番API提供に最適。 |
| LM Studio | GGUF | GUI重視・ビジネス用途 | HuggingFaceモデルブラウザ内蔵。continuous batching対応(0.4.0)。Windows/Mac/Linuxのデスクトップアプリ。llama.cppベース。 |
| MLX(Apple) | MLX専用 | Mac専用・高速推論 | Apple Silicon専用。M5世代でM4比プロンプト処理4倍高速化。OllamaのApple Siliconバックエンドとして採用。M5 Max 128GBで70B Q4を快適動作。 |
| SGLang / TensorRT-LLM | 各種 | エンタープライズ高速化 | DeepSeek-V3の公式推奨バックエンド。TensorRT-LLMはNVIDIA GPU特化・最高速。HuggingFace TGIは2025/12よりメンテナンスモード。 |
カテゴリ4:ライセンス分類まとめ
| ライセンス種別 | 商用利用 | 主なモデル |
|---|---|---|
| Apache 2.0 | ✅ 完全自由(制限なし) | Qwen3/3.5/3.6全般、QwQ-32B、Mistral 7B/Nemo/Small/Mixtral/Large 3、Gemma 4全サイズ(Gemmaシリーズ初)、Rakuten AI 2.0/3.0(ただし3.0はライセンス問題あり)、DeepSeek-R1-Distill-Qwen系 |
| MIT | ✅ 完全自由(制限なし) | DeepSeek-V3/R1(コード・モデルライセンス)、Sarashina2-70B/2.2、Stockmark-2-100B、GLM-4.6/5.1、Phi-4/Phi-4 Mini/Phi-3 Mini |
| Llama Community License | ⚠️ 条件付き(MAU制限・EUマルチモーダル制限あり) | Llama 3.x全系・Llama 4(Scout/Maverick)、ELYZA-JP(Llama 3/3.1ベース) |
| Gemma Terms of Use(旧Gemma 3まで) | ⚠️ 一部制限(エンタープライズ法務審査が必要なケースあり) | Gemma 3(1B/4B/12B/27B)、Gemma 2 |
| Codestral MNPL | ❌ 非商用のみ | Codestral 2508(コード特化)。商用利用にはMistral APIを利用すること |
| Sarashina2-8x70B独自ライセンス | ❌ 非商用のみ | Sarashina2-8x70B(460B MoE版) |
まとめ:ティア対応表と選定指針(2026年6月)
| ティア | 主な選択肢 | 必要ハードウェア | 選定ポイント |
|---|---|---|---|
| 🟣 フロンティアオープン (Sonnet〜Opus相当) |
DeepSeek-V3(MIT) Qwen3.5-397B(Apache) Mistral Large 3(Apache) Kimi K2.6(Modified MIT) |
H100×8以上 またはMac Ultra 192GB |
商用無制限を重視するならMistral Large 3(Apache 2.0)が唯一Llama制限なし。EU・GDPR対応でも差別化。DeepSeek-V3(MIT)はコスパ最高だがデータガバナンス審査が必要。 |
| ⚪ Haiku相当 | Qwen3.6-27B(コード最強) Gemma 4 31B(汎用・マルチモーダル) QwQ-32B / R1-Distill-32B(推論) |
RTX 4090(24GB) 〜RTX 5090(32GB) |
コーディング最優先:Qwen3.6-27B(Apache 2.0、SWE-bench 77.2⚠️)。汎用・Vision必要:Gemma 4 31B(Apache 2.0)。推論特化:QwQ-32B(Apache 2.0)またはR1-Distill-Qwen-32B(Apache 2.0)。 |
| 🔵 Nano級 (Haiku下位〜準Haiku) |
Qwen3 8B / 14B(Apache) Gemma 4 E4B(Apache) Phi-4 Mini(MIT) GLM-Z1-9B(MIT) NVIDIA Nemotron 9B JP(日本語) |
RTX 3060(12GB) 〜RTX 4060Ti(16GB) |
日本語重視:NVIDIA Nemotron Nano 9B JP(Nejumi sub-10B 1位✅)。汎用英語:Qwen3 8B(Apache 2.0)。軽量推論:Phi-4 Mini(MIT)。 |
| 🟡 Pico級 (スマートフォン・エッジ) |
Phi-3 Mini / Phi-4 Mini Q4(MIT) Qwen3 0.6B〜1.7B(Apache) Gemma 4 E2B(Apache) Llama 3.2 1B/3B(Llama) |
スマートフォン Raspberry Pi CPU専用PC |
iPhone実機実証:Phi-3 Mini(4bit 1.8GB)。Android/Arm最適化:Llama 3.2 1B/3B(ExecuTorch)。日本語重視:Qwen3 1.7B(Apache 2.0)。 |
判断を変える閾値
- VRAMが16GB未満→ 32B以上は諦め14B Q4以下に集中。Gemma 4 26B MoEはQ4で8GB前後が目安でお得。
- 商用利用でMAU制限が懸念→ Llamaを避けApache 2.0(Qwen3.6、Gemma 4、Mistral Large 3)またはMIT(DeepSeek、Phi)系へ。
- 日本語の「知識精度」が重要→ MT-Bench(会話品質)ではなくjaster/JMMLU/Nejumi総合スコアで判断。GPT-OSS Swallow 120BはMT-Bench 0.916だが知識スコアは0.642と乖離大きい。
- DeepSeek由来のセキュリティ懸念がある組織→ Rakuten AI 3.0(DeepSeek V3 FT)、R1-Distill-Qwen系(R1蒸留)も対象になりうる。MIT/Apache 2.0のQwen系フルスクラッチ版(Qwen3.6-27Bなど)は異なる。
- 70Bを単一コンシューマーGPUで動かしたい→ RTX 5090(32GB)でも70B Q4(約38GB)は短いコンテキスト専用。長文推論にはデュアルRTX 5090(64GB合計)またはMac Studio M5 Max(128GB統合メモリ)が必要。
本記事のデータは2026年6月18日時点の調査に基づく。Nejumi Leaderboard 4(2025年12月18日版・2026年3月6日版)、Artificial Analysis(前回記事参照)、各社公式ブログ・HuggingFaceモデルカードを参照。ベンチマーク数値は記事公開後も更新されるため、最新値は各リーダーボードで確認されたい。なお本記事では富士通MONAKA(2027年リリース予定のCPU)およびTakane 32B(富士通エンタープライズ専用・ウェイト非公開)はローカル動作製品に該当しないため記載対象外とした。
0 件のコメント:
コメントを投稿