木曜日, 6月 18, 2026

ローカルLLM(オープンウェイトモデル)徹底比較 2026年6月版

はじめに:評価の信頼性をどう読むか

本稿では前回記事のClaudeティア体系(Mythos/Fable・Opus・Sonnet・Haiku)を「ものさし」として、ローカルで動作するオープンウェイトLLMを整理する。Haiku以下については3段階のサブティアを新設した。

ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。

  • 独立評価あり:Artificial Analysis・SWE-rebench・Swallow Leaderboard・Nejumi Leaderboard 4等の第三者評価
  • ⚠️ ベンダー自己申告:各社公式ブログ・プレスリリースの値(条件・方法が非公開のケースあり)
  • 評価データ不十分:独立評価が存在しないか入手できなかったモデル
  • (暫定):未発売・β版・発表のみで本格評価未実施

ローカルLLMのティア定義(本記事で使用)

ティア Claude基準との対応 パラメータ規模の目安 動作環境の目安
🟣 フロンティアオープン Sonnet〜Opus相当 100B超(密)または400B超(MoE) 複数GPU(H100×8等)またはApple M2 Ultra 192GB以上
⚪ Haiku相当 Haiku 4.5相当 14B〜70B(密) RTX 3090/4090(24GB)〜RTX 5090(32GB)
🔵 Nano級(新設) Haiku下位〜準Haiku 3B〜14B(量子化) RTX 3060(12GB)/RTX 4060Ti(16GB)または16GB RAM + CPU推論
🟡 Pico級(新設) Haiku以下 〜3B(量子化) スマートフォン(iPhone 14 A16 Bionic等)・Raspberry Pi・CPU専用PC

VRAM要件早見表(2026年6月・Q4_K_M量子化目安)

VRAMはローカルLLM運用の最大ボトルネック。モデルウェイトが収まらないと推論速度が桁違いに低下する。以下は目安値(KVキャッシュ・コンテキスト長は別途加算)。

⚠️ 70BのQ4_K_M(約38〜40GB)はRTX 5090(32GB)単体では短いコンテキスト専用となる。128Kコンテキストには+14GB以上が必要で、デュアルRTX 5090(64GB合計)またはMac Studio M5 Max(128GB統合メモリ)が現実的。

パラメータ規模 BF16(フル精度) Q8 Q4_K_M 代表GPU
〜1B 〜2GB 〜1GB 〜0.8GB スマートフォン・Raspberry Pi(Pico級)
3B 〜6GB 〜3GB 〜2GB RTX 3060(12GB)・スマートフォン高性能品(Pico〜Nano)
7〜8B 〜16GB 〜8.5GB 〜5GB RTX 3060(12GB)/RTX 4060(Nano級)
14B 〜28GB 〜15GB 〜9GB RTX 4060Ti(16GB)/RTX 4070(Nano〜Haiku下位)
27〜32B 〜64GB 〜35GB 〜19GB RTX 4090(24GB)/RTX 5090(32GB)(Haiku相当)
70B 〜140GB 〜74GB 〜38〜40GB デュアルRTX 4090(48GB合計)・Mac Studio M5 Max(128GB)
235B-A22B(Qwen MoE) 〜120GB A100×2〜H100×2・Mac Studio M2 Ultra 192GB(フロンティアオープン)
671B(DeepSeek-V3等) 〜1.3TB以上 〜685GB 〜370GB H100×8以上・クラウド前提(フロンティアオープン)

計算式目安:VRAM(GB) ≈ パラメータ(B) × バイト/param × 1.2(BF16=2、Q8=1、Q4_K_M≒0.55)。MoEモデルは総パラメータ全体をVRAMにロードする必要がある(活性パラメータだけでは済まない)。KVキャッシュは70Bモデル・128Kコンテキストで+14GB以上が追加で必要。


カテゴリ1:主要国際オープンウェイトモデル

Qwen系(Alibaba)— オープンウェイト最大勢力 🇯🇵

2026年現在、オープンウェイトの事実上の主役。全シリーズがApache 2.0(商用完全自由)で、日本語能力も高い。

ティア モデル ライセンス コンテキスト 特徴・ベンチマーク
🟣 フロンティアオープン Qwen3.5-397B-A17B
2026/2〜3
Apache 2.0 1M フラッグシップMoE。Gated DeltaNet+sparse MoE、201言語対応。BFCL-V4 72.2でGPT-5 miniを上回る⚠️。H100×8以上またはMac Ultra 192GB必須。
🟣 フロンティアオープン Qwen3-235B-A22B
2025/4
Apache 2.0 131K→256K(2507) ArenaHard 95.6、AIME'24 85.7⚠️。Q4で約120GB。Thinking/Non-thinkingモード切替。
⚪ Haiku相当 Qwen3.6-27B
2026/4
Apache 2.0 262K(〜1M YaRN) コンシューマーGPUで動作する最強コーディングモデル。SWE-bench Verified 77.2⚠️、SWE-bench Pro 53.5⚠️、GPQA Diamond 87.8⚠️。15倍大きいQwen3.5-397Bのコーディングベンチを凌駕。Dense+ネイティブマルチモーダル。Q4で約18GB(RTX 4090に収まる)。
⚪ Haiku相当 Qwen3 32B
2025/4
Apache 2.0 131K AIME'24 79.5⚠️。Q4で約19GB。RTX 4090に収まる。
⚪ Haiku相当 QwQ-32B
2025年
Apache 2.0 131K 推論特化。AIME24 79.5、LiveCodeBench 63.4でDeepSeek-R1(671B)に匹敵⚠️。Q4で24GB。RTX 5090(32GB)推奨。
⚪ Haiku相当 Qwen3.6-35B-A3B(MoE)
2026/4
Apache 2.0 262K 総35B/3B活性のMoE。Q4で約6〜7GB。RTX 3060(12GB)でも高速動作。速度優先ならこちら。
🔵 Nano級 Qwen3 14B / 8B
2025/4
Apache 2.0 131K 14B Q4で約9GB(RTX 4060Ti 16GBに収まる)。8B Q4で約5GB(RTX 3060 12GBで動作)。
🟡 Pico級 Qwen3 4B / 1.7B / 0.6B
2025/4
Apache 2.0 131K 0.6B Q4で約0.5GB。スマートフォン・Raspberry Pi動作可。4B Q4で約2.5GB。CPU推論可。

Gemma系(Google DeepMind)— Googleの本気オープン 🇯🇵

2026年4月2日リリースのGemma 4が大きな転換点。Gemmaシリーズ初のApache 2.0に切り替わり、商用利用の懸念が解消された。

ティア モデル ライセンス コンテキスト 特徴・ベンチマーク
⚪ Haiku相当 Gemma 4 31B(Dense)
2026/4/2
Apache 2.0(Gemma初) 256K MMLU-Pro 85.2、AIME 2026 89.2%⚠️(Gemini 3系と同基盤)。Chatbot Arena #3相当⚠️。画像+音声入力(出力はテキストのみ)。Q4で約17GB(RTX 4090に収まる)。140+言語。
🔵 Nano級(速度重視) Gemma 4 26B-A4B(MoE)
2026/4/2
Apache 2.0 256K 26B総/4B活性。31B Denseの約97%の品質でQ4時の推論速度は大幅高速。RTX 3090/4090でも高速。Chatbot Arena #6相当⚠️。
🔵 Nano級 Gemma 4 E4B(約4.5B)
2026/4/2
Apache 2.0 128K テキスト+画像+音声入力。MediaPipe/LiteRT対応。RTX 3060で動作。
🟡 Pico級 Gemma 4 E2B(約2.3B)
2026/4/2
Apache 2.0 128K スマートフォン・エッジ向け。音声入力対応。ollama run gemma4で1コマンド起動可。
⚪ Haiku相当 Gemma 3 27B
2025/3
Gemmaライセンス(商用可) 128K Chatbot Arena ELO 1339(o1-preview相当)⚠️。MMLU-Pro 67.5、GPQA Diamond 42.4。Q4で約16GB(RTX 4080 16GBに収まる)。先代のリファレンスモデル。

DeepSeek系(オープンウェイト版)

⚠️ DeepSeek R2は2026年6月時点で未リリース。 公式発表・APIエントリなし。2026年4月24日にDeepSeek V4(V4-Pro/V4-Flash)がAPIとオープンウェイトで出荷されたのが最新の公式リリース。R2(次世代推論モデル)は噂のみで確認情報なし。

ティア モデル ライセンス 特徴・ベンチマーク(ローカル動作観点)
🟣 フロンティアオープン DeepSeek-V3 / V3.x
671B、2024/12〜
MIT MMLU 88.5、MMLU-Pro 75.9、GPQA 59.1✅(論文記載値)。128Kコンテキスト。FP8で約685GB。SGLang・vLLM・TensorRT-LLM・LMDeploy・AMD・Ascend対応。H100×8前提。
⚪ Haiku相当 DeepSeek-R1-Distill-Qwen-32B
2025/1
Apache 2.0 推論特化蒸留版。AIME 2024 72.6、MATH-500 94.3⚠️。Q4で約19GB(RTX 4090)。
🔵 Nano級 DeepSeek-R1-Distill-Qwen-14B / 7B
2025/1
Apache 2.0 14B Q4で約9GB(RTX 4060Ti 16GBに収まる)。7B Q4で約5GB(RTX 3060)。R1の推論能力を低コストで活用可。
🔵 Nano級 DeepSeek-R1-Distill-Llama-8B / 70B
2025/1
Llamaライセンス 8B Q4で約5GB。70B Q4で約38GB(デュアルRTX 4090必要)。AIME 70.0、MATH-500 94.5⚠️(70B)。

Llama系(Meta)

⚠️ Llama 4 Behemoth(約2T総/288B活性)は2026年4月時点で学習継続中・未公開。 公式発表で「教師モデル」と位置付けられており、一般向けウェイト出荷の予定は未発表。Behemothをベースとした計画は立てないこと。2026年現在のLocak用途での現実的な選択肢はScoutとMaverick、およびLlama 3.3 70Bとなる。

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン(ハード要求大) Llama 4 Maverick
400B総/17B活性、2025/4
Llama 4 Community(商用可・700M MAU制限) 1M。128エキスパートMoE。マルチモーダル。MMLU-Pro 80.5⚠️。Q4で200GB+。ローカル動作は非現実的(H100×8以上必要)。
⚪ Haiku相当 Llama 4 Scout
109B総/17B活性、2025/4
Llama 4 Community 10Mトークンコンテキストが最大の特徴。MMLU-Pro 74.3✅。16エキスパートMoE。Int4でH100 1基、Q4で約55〜60GB(デュアルRTX 5090または単一H100 80GB)。
⚪ Haiku相当 Llama 3.3 70B
2024年末
Llama Community 128K。MMLU Chat 86.0、IFEval 92.1⚠️(405Bを上回る指示追従)。テキスト専用。Q4で約39〜43GB(デュアルRTX 4090必要)。
🔵 Nano級 Llama 3.1 / 3.2 8B Llama Community 128K。Q4で約5GB(RTX 3060で動作)。エコシステム最大のモデル。微調整版が多数。
🟡 Pico級 Llama 3.2 1B / 3B Llama Community 128K(ExecuTorchでモバイル版は8K)。Arm/Qualcomm最適化済み。ExecuTorch経由でAndroid/iOS動作実証済み。

⚠️ Llamaライセンスの注意点:月間アクティブユーザー7億以上の企業は別途Meta許諾が必要。EUではマルチモーダル版に追加制限あり。OSI基準の「オープンソース」には非該当。

Mistral / Mixtral系

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン Mistral Large 3
675B総/41B活性、2025/12
Apache 2.0(使用制限なし) 256K。sparse MoE。MATH-500 93.6⚠️。3,000台のH200で学習。商用利用の制限がない点でLlamaとの差別化ポイント。EU・GDPR対応でのデータ主権観点でも強み。
⚪ Haiku相当 Mistral Small 3.1 24B
2025/3
Apache 2.0 128K。Vision対応。単一RTX 4090または32GB RAM MacBookで量子化動作可能。
🔵 Nano級 Mistral Nemo 12B Apache 2.0 128K。128Kが扱える中型モデル。Q4で約7GB。
🔵 Nano級(コード特化) Codestral 2508
2025/8
⚠️ MNPL(非商用) 256K。FIM補完・IDE統合向け低レイテンシ。ライセンス要注意:非商用のみ。商用IDE統合にはMistral APIが必要。
🔵 Nano級 Mistral 7B Apache 2.0 初代。エコシステム豊富。Q4で約4GB。

Phi系(Microsoft)— SLMのパイオニア

ティア モデル ライセンス 特徴・ベンチマーク
⚪ Haiku下位 Phi-4(14B)
2024年末
MIT 高品質合成データ学習。GPQA Diamond 56.1、HumanEval 82.6⚠️。Windows/Azure Edgeデフォルト候補。Q4で約9GB(RTX 4060Ti 16GBに収まる)。
🔵 Nano級 Phi-4 Mini(3.8B)
2026年初頭
MIT MMLU 73.0でLlama 3.1 8B相当⚠️。Q4で約2.5GB。RTX 4090で300+ tok/s。スマートフォン・Raspberry Pi・WebLLMで動作。推論強化版(reasoning/reasoning-plus)あり。
🟡 Pico級 Phi-3 Mini(3.8B) MIT MMLU 69、4bit量子化で約1.8GB。iPhone 14(A16 Bionic)での実機動作を実証済み(arXiv技術レポート記載)。WindowsデバイスへのオンデバイスAI実装のリファレンス。

GLM系(Zhipu AI / Z.ai)

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン GLM-5.1
744B総/40B活性、2026/4
MIT SWE-bench Verified 78.9⚠️。tool-use/codings特化。8×H100で自己ホスト可能。
⚪ Haiku相当 GLM-4.5-Air
106B総/12B活性
MIT MoE。tool-use/codings特化、reasoning切替対応。tool-useベンチでClaude Sonnet 4を上回る⚠️。12B活性でコンシューマーGPU動作可(総106GBのVRAM必要)。
🔵 Nano級 GLM-Z1-9B / GLM-4-9B MIT 9B。GLM-4.1V-9B-ThinkingはQwen-2.5-VL-72Bに18ベンチで匹敵⚠️。Q4で約5.5GB。RTX 3060で動作。

Kimi系(Moonshot AI)

ティア モデル ライセンス 特徴・ベンチマーク
🟣 フロンティアオープン Kimi K2.6
約1T総/32B活性、2026/4
Modified MIT 256K。AA Index 54✅(前回記事参照)。SWE-Bench Pro 58.6でオープンウェイト最高水準⚠️。スワームサンプリング(300サブエージェント・13時間連続稼働)。

カテゴリ2:日本語特化オープンウェイトモデル 🇯🇵

⚠️ 重要な現実:Nejumi Leaderboard 4(2025年12月18日時点)の総合Top50に国産フルスクラッチモデルは1つも入っていない。「オープンウェイトで日本語が最も得意なモデルはQwen系(中国製)」という逆転現象が起きている。一方、データ主権・オンプレ完結・政府調達適格性では国産モデルが不可欠な場面がある。

⚠️ 「日本産」の定義に注意:Swallow系はQwen/GPT-OSSのファインチューン、ELYZAはLlamaベース、Rakuten AI 3.0はDeepSeek V3ベースのファインチューン(後述)。フルスクラッチはPLaMo、LLM-jp、Sarashina、NTT tsuzumi、Stockmark等に限られる。

ティア モデル(企業) ライセンス 特徴・注意点
🔶 フルスクラッチ系(真の国産モデル)
🔵 Nano〜⚪ Haiku Sarashina2-70B(SB Intuitions)
2024/8
MIT フルスクラッチ、約2.1Tトークン学習。日本語QAトップクラス(自社比較⚠️)。指示チューニングなし(ベースモデル)。Q4で約40GB(デュアルRTX 4090必要)。
🟡 Pico〜🔵 Nano Sarashina2.2(0.5B/1B/3B)(SB Intuitions)
2025/2〜3
MIT・商用可 3Bでも日本語数学(MGSM-ja)・コーディング(JHumanEval)でSarashina2-70Bを上回ると報告⚠️。Sarashina2-Vision-8B/14Bも同時期公開。
⚪ Haiku(暫定) Stockmark-2-100B(ストックマーク)
2025/3
MIT フルスクラッチ、約1.5Tトークン、GQA・32Kコンテキスト。ビジネスQA 90%(GPT-4o 88%超⚠️自社評価)。NVIDIA NIM対応(2025/9)。トヨタ・パナソニック等に導入実績。
🔵 Nano(暫定) LLM-jp-4(国立情報学研究所)
2026年
❓(研究利用主体) 11.7Tトークン学習、Qwen3 MoEアーキテクチャ採用(ウェイトは新規学習)。JP MT-Bench 7.82でGPT-4o(7.29)を上回る⚠️。完全な再現可能性重視の研究用途。
⚪ Haiku(暫定) PLaMo 3.0 Prime β(Preferred Networks)
2026/3/19
PLaMo Community License(商用要連絡)
1Bモデルのみ Apache 2.0
フルスクラッチ再構築、Samba系ハイブリッドアーキテクチャ(Mamba2+attention)。日本初のスクラッチ推論モデル。NICT共同開発。64Kコンテキスト。β版・商用版は6月中旬以降予定。独立評価なし(暫定)。
🔵 Nano NVIDIA Nemotron Nano 9B v2 Japanese
2026/2/17
NVIDIA Nemotron Open Model License Mamba-2+Transformerハイブリッド。128Kコンテキスト。Nejumi Leaderboard 4 sub-10Bカテゴリ1位(TOTAL_AVG約0.711)✅。日本語9B以下最強候補。
🔶 ファインチューン系(ベースモデルに注意)
🟣 フロンティアオープン(暫定) Rakuten AI 3.0(楽天)
2026/3/17
Apache 2.0(⚠️当初MIT削除問題あり) ⚠️ DeepSeek-V3ベースのファインチューンと判明(config.jsonに"deepseek_v3")。リリース数時間でコミュニティが発見し炎上。当初MIT削除でライセンス違反、批判後にNOTICEファイル追加で対処。GENIACプロジェクト(経産省・NEDO)資金。日本語ベンチで優秀(自社比較⚠️)だが「国産AI」としての位置づけは要注意。DeepSeek懸念がある組織は調達審査が必要。
🔵 Nano Rakuten AI 2.0(8x7B MoE)/ mini(1.5B)(楽天)
2025/2/12
Apache 2.0 47B総/13B活性MoE。Japanese MT-Bench 7.08⚠️。HuggingFace公開・実際にローカル動作実績あり。mini(1.5B)も同日公開、Apache 2.0。
⚪ Haiku下位〜Haiku GPT-OSS Swallow 120B(東京科学大学/AIST)
2026/2/20
GPT-OSSベースの制限に依存 GPT-OSSに日本語継続事前学習。JP MT-Bench 0.916でGPT-5.1 Thinking(0.897)を上回る✅。知識スコアは低め(0.642)と品質に乖離あり。120BはQ4でH100必要級。
🔵 Nano Llama-3-ELYZA-JP-8B(ELYZA/KDDI)
2024/6
Llama 3 Community LlamaベースのJP特化FT。HuggingFaceでGGUF/AWQ版も公開。Q4で約5GB。デジタル庁「政府AI」プログラムに70B版が採用(70B版はウェイト非公開)。
⚪ Haiku下位 ELYZA-Thinking-1.0-Qwen-32B(ELYZA/KDDI)
2025/5頃
Apache 2.0 Qwen2.5-32B-InstructベースのJP特化チューニング。HuggingFace公開、128Kコンテキスト。Swallowリーダーボードに収録。

⚠️ 国産モデル共通注意事項:性能データは大半が自社評価値(⚠️)で、Artificial Analysis等の国際独立評価が存在するものはゼロ(2026年6月時点)。「JGLUEで世界最高」「GPT-4超え」等は評価条件・比較対象バージョンに強く依存する。2027年1月の政府AI「源内」評価結果公表が初の政府公式横断比較データになる見込み。


カテゴリ3:推論フレームワーク比較(2026年6月)

フレームワーク 形式 推奨用途 特徴・注意点
Ollama GGUF中心 個人・開発者入門 最も簡単な1コマンド起動。Apple Silicon MLXバックエンド対応(0.19〜、2026/3)。主要モデル(Llama/Qwen/Gemma/DeepSeek/Phi/Mistral)全対応。単一ユーザー前提・マルチユーザー本番には不向き。
llama.cpp(GGUF) GGUF 最軽量・低スペック環境 CUDA/ROCm/Vulkan/Metal/CPU全対応。最軽量・最広範な互換性。Qwen 3.6 MTP対応。LM Studioの内部エンジン。
vLLM HuggingFace/FP8 本番マルチユーザーサーバー PagedAttention+継続バッチングで高並列時にOllamaの十数倍〜20倍スループット(同一ハード)。DeepSeek V4 on Blackwell対応(v0.21)。NVIDIA/AMD/TPU/Ascend/Apple対応。本番API提供に最適。
LM Studio GGUF GUI重視・ビジネス用途 HuggingFaceモデルブラウザ内蔵。continuous batching対応(0.4.0)。Windows/Mac/Linuxのデスクトップアプリ。llama.cppベース。
MLX(Apple) MLX専用 Mac専用・高速推論 Apple Silicon専用。M5世代でM4比プロンプト処理4倍高速化。OllamaのApple Siliconバックエンドとして採用。M5 Max 128GBで70B Q4を快適動作。
SGLang / TensorRT-LLM 各種 エンタープライズ高速化 DeepSeek-V3の公式推奨バックエンド。TensorRT-LLMはNVIDIA GPU特化・最高速。HuggingFace TGIは2025/12よりメンテナンスモード。

カテゴリ4:ライセンス分類まとめ

ライセンス種別 商用利用 主なモデル
Apache 2.0 ✅ 完全自由(制限なし) Qwen3/3.5/3.6全般、QwQ-32B、Mistral 7B/Nemo/Small/Mixtral/Large 3、Gemma 4全サイズ(Gemmaシリーズ初)、Rakuten AI 2.0/3.0(ただし3.0はライセンス問題あり)、DeepSeek-R1-Distill-Qwen系
MIT ✅ 完全自由(制限なし) DeepSeek-V3/R1(コード・モデルライセンス)、Sarashina2-70B/2.2、Stockmark-2-100B、GLM-4.6/5.1、Phi-4/Phi-4 Mini/Phi-3 Mini
Llama Community License ⚠️ 条件付き(MAU制限・EUマルチモーダル制限あり) Llama 3.x全系・Llama 4(Scout/Maverick)、ELYZA-JP(Llama 3/3.1ベース)
Gemma Terms of Use(旧Gemma 3まで) ⚠️ 一部制限(エンタープライズ法務審査が必要なケースあり) Gemma 3(1B/4B/12B/27B)、Gemma 2
Codestral MNPL ❌ 非商用のみ Codestral 2508(コード特化)。商用利用にはMistral APIを利用すること
Sarashina2-8x70B独自ライセンス ❌ 非商用のみ Sarashina2-8x70B(460B MoE版)

まとめ:ティア対応表と選定指針(2026年6月)

ティア 主な選択肢 必要ハードウェア 選定ポイント
🟣 フロンティアオープン
(Sonnet〜Opus相当)
DeepSeek-V3(MIT)
Qwen3.5-397B(Apache)
Mistral Large 3(Apache)
Kimi K2.6(Modified MIT)
H100×8以上
またはMac Ultra 192GB
商用無制限を重視するならMistral Large 3(Apache 2.0)が唯一Llama制限なし。EU・GDPR対応でも差別化。DeepSeek-V3(MIT)はコスパ最高だがデータガバナンス審査が必要。
⚪ Haiku相当 Qwen3.6-27B(コード最強)
Gemma 4 31B(汎用・マルチモーダル)
QwQ-32B / R1-Distill-32B(推論)
RTX 4090(24GB)
〜RTX 5090(32GB)
コーディング最優先:Qwen3.6-27B(Apache 2.0、SWE-bench 77.2⚠️)。汎用・Vision必要:Gemma 4 31B(Apache 2.0)。推論特化:QwQ-32B(Apache 2.0)またはR1-Distill-Qwen-32B(Apache 2.0)。
🔵 Nano級
(Haiku下位〜準Haiku)
Qwen3 8B / 14B(Apache)
Gemma 4 E4B(Apache)
Phi-4 Mini(MIT)
GLM-Z1-9B(MIT)
NVIDIA Nemotron 9B JP(日本語)
RTX 3060(12GB)
〜RTX 4060Ti(16GB)
日本語重視:NVIDIA Nemotron Nano 9B JP(Nejumi sub-10B 1位✅)。汎用英語:Qwen3 8B(Apache 2.0)。軽量推論:Phi-4 Mini(MIT)。
🟡 Pico級
(スマートフォン・エッジ)
Phi-3 Mini / Phi-4 Mini Q4(MIT)
Qwen3 0.6B〜1.7B(Apache)
Gemma 4 E2B(Apache)
Llama 3.2 1B/3B(Llama)
スマートフォン
Raspberry Pi
CPU専用PC
iPhone実機実証:Phi-3 Mini(4bit 1.8GB)。Android/Arm最適化:Llama 3.2 1B/3B(ExecuTorch)。日本語重視:Qwen3 1.7B(Apache 2.0)。

判断を変える閾値

  • VRAMが16GB未満→ 32B以上は諦め14B Q4以下に集中。Gemma 4 26B MoEはQ4で8GB前後が目安でお得。
  • 商用利用でMAU制限が懸念→ Llamaを避けApache 2.0(Qwen3.6、Gemma 4、Mistral Large 3)またはMIT(DeepSeek、Phi)系へ。
  • 日本語の「知識精度」が重要→ MT-Bench(会話品質)ではなくjaster/JMMLU/Nejumi総合スコアで判断。GPT-OSS Swallow 120BはMT-Bench 0.916だが知識スコアは0.642と乖離大きい。
  • DeepSeek由来のセキュリティ懸念がある組織→ Rakuten AI 3.0(DeepSeek V3 FT)、R1-Distill-Qwen系(R1蒸留)も対象になりうる。MIT/Apache 2.0のQwen系フルスクラッチ版(Qwen3.6-27Bなど)は異なる。
  • 70Bを単一コンシューマーGPUで動かしたい→ RTX 5090(32GB)でも70B Q4(約38GB)は短いコンテキスト専用。長文推論にはデュアルRTX 5090(64GB合計)またはMac Studio M5 Max(128GB統合メモリ)が必要。

本記事のデータは2026年6月18日時点の調査に基づく。Nejumi Leaderboard 4(2025年12月18日版・2026年3月6日版)、Artificial Analysis(前回記事参照)、各社公式ブログ・HuggingFaceモデルカードを参照。ベンチマーク数値は記事公開後も更新されるため、最新値は各リーダーボードで確認されたい。なお本記事では富士通MONAKA(2027年リリース予定のCPU)およびTakane 32B(富士通エンタープライズ専用・ウェイト非公開)はローカル動作製品に該当しないため記載対象外とした。

0 件のコメント: