情報セキュリティばんざい！: ローカルLLM（オープンウェイトモデル）徹底比較 2026年6月版

はじめに：評価の信頼性をどう読むか

本稿では前回記事のClaudeティア体系（Mythos/Fable・Opus・Sonnet・Haiku）を「ものさし」として、ローカルで動作するオープンウェイトLLMを整理する。Haiku以下については3段階のサブティアを新設した。

ベンチマーク情報には信頼性の幅があるため、出典を以下のマークで区別する。

✅ 独立評価あり：Artificial Analysis・SWE-rebench・Swallow Leaderboard・Nejumi Leaderboard 4等の第三者評価
⚠️ ベンダー自己申告：各社公式ブログ・プレスリリースの値（条件・方法が非公開のケースあり）
❓ 評価データ不十分：独立評価が存在しないか入手できなかったモデル
（暫定）：未発売・β版・発表のみで本格評価未実施

ローカルLLMのティア定義（本記事で使用）

ティア	Claude基準との対応	パラメータ規模の目安	動作環境の目安
🟣 フロンティアオープン	Sonnet〜Opus相当	100B超（密）または400B超（MoE）	複数GPU（H100×8等）またはApple M2 Ultra 192GB以上
⚪ Haiku相当	Haiku 4.5相当	14B〜70B（密）	RTX 3090/4090（24GB）〜RTX 5090（32GB）
🔵 Nano級（新設）	Haiku下位〜準Haiku	3B〜14B（量子化）	RTX 3060（12GB）/RTX 4060Ti（16GB）または16GB RAM + CPU推論
🟡 Pico級（新設）	Haiku以下	〜3B（量子化）	スマートフォン（iPhone 14 A16 Bionic等）・Raspberry Pi・CPU専用PC

VRAM要件早見表（2026年6月・Q4_K_M量子化目安）

VRAMはローカルLLM運用の最大ボトルネック。モデルウェイトが収まらないと推論速度が桁違いに低下する。以下は目安値（KVキャッシュ・コンテキスト長は別途加算）。

⚠️ 70BのQ4_K_M（約38〜40GB）はRTX 5090（32GB）単体では短いコンテキスト専用となる。128Kコンテキストには+14GB以上が必要で、デュアルRTX 5090（64GB合計）またはMac Studio M5 Max（128GB統合メモリ）が現実的。

パラメータ規模	BF16（フル精度）	Q8	Q4_K_M	代表GPU
〜1B	〜2GB	〜1GB	〜0.8GB	スマートフォン・Raspberry Pi（Pico級）
3B	〜6GB	〜3GB	〜2GB	RTX 3060（12GB）・スマートフォン高性能品（Pico〜Nano）
7〜8B	〜16GB	〜8.5GB	〜5GB	RTX 3060（12GB）/RTX 4060（Nano級）
14B	〜28GB	〜15GB	〜9GB	RTX 4060Ti（16GB）/RTX 4070（Nano〜Haiku下位）
27〜32B	〜64GB	〜35GB	〜19GB	RTX 4090（24GB）/RTX 5090（32GB）（Haiku相当）
70B	〜140GB	〜74GB	〜38〜40GB	デュアルRTX 4090（48GB合計）・Mac Studio M5 Max（128GB）
235B-A22B（Qwen MoE）	—	—	〜120GB	A100×2〜H100×2・Mac Studio M2 Ultra 192GB（フロンティアオープン）
671B（DeepSeek-V3等）	〜1.3TB以上	〜685GB	〜370GB	H100×8以上・クラウド前提（フロンティアオープン）

計算式目安：VRAM(GB) ≈ パラメータ(B) × バイト/param × 1.2（BF16=2、Q8=1、Q4_K_M≒0.55）。MoEモデルは総パラメータ全体をVRAMにロードする必要がある（活性パラメータだけでは済まない）。KVキャッシュは70Bモデル・128Kコンテキストで+14GB以上が追加で必要。

カテゴリ1：主要国際オープンウェイトモデル

Qwen系（Alibaba）— オープンウェイト最大勢力 🇯🇵

2026年現在、オープンウェイトの事実上の主役。全シリーズがApache 2.0（商用完全自由）で、日本語能力も高い。

ティア	モデル	ライセンス	コンテキスト	特徴・ベンチマーク
🟣 フロンティアオープン	Qwen3.5-397B-A17B 2026/2〜3	Apache 2.0	1M	フラッグシップMoE。Gated DeltaNet+sparse MoE、201言語対応。BFCL-V4 72.2でGPT-5 miniを上回る⚠️。H100×8以上またはMac Ultra 192GB必須。
🟣 フロンティアオープン	Qwen3-235B-A22B 2025/4	Apache 2.0	131K→256K(2507)	ArenaHard 95.6、AIME'24 85.7⚠️。Q4で約120GB。Thinking/Non-thinkingモード切替。
⚪ Haiku相当	Qwen3.6-27B 2026/4	Apache 2.0	262K（〜1M YaRN）	コンシューマーGPUで動作する最強コーディングモデル。SWE-bench Verified 77.2⚠️、SWE-bench Pro 53.5⚠️、GPQA Diamond 87.8⚠️。15倍大きいQwen3.5-397Bのコーディングベンチを凌駕。Dense＋ネイティブマルチモーダル。Q4で約18GB（RTX 4090に収まる）。
⚪ Haiku相当	Qwen3 32B 2025/4	Apache 2.0	131K	AIME'24 79.5⚠️。Q4で約19GB。RTX 4090に収まる。
⚪ Haiku相当	QwQ-32B 2025年	Apache 2.0	131K	推論特化。AIME24 79.5、LiveCodeBench 63.4でDeepSeek-R1(671B)に匹敵⚠️。Q4で24GB。RTX 5090（32GB）推奨。
⚪ Haiku相当	Qwen3.6-35B-A3B（MoE） 2026/4	Apache 2.0	262K	総35B/3B活性のMoE。Q4で約6〜7GB。RTX 3060（12GB）でも高速動作。速度優先ならこちら。
🔵 Nano級	Qwen3 14B / 8B 2025/4	Apache 2.0	131K	14B Q4で約9GB（RTX 4060Ti 16GBに収まる）。8B Q4で約5GB（RTX 3060 12GBで動作）。
🟡 Pico級	Qwen3 4B / 1.7B / 0.6B 2025/4	Apache 2.0	131K	0.6B Q4で約0.5GB。スマートフォン・Raspberry Pi動作可。4B Q4で約2.5GB。CPU推論可。

Gemma系（Google DeepMind）— Googleの本気オープン 🇯🇵

2026年4月2日リリースのGemma 4が大きな転換点。Gemmaシリーズ初のApache 2.0に切り替わり、商用利用の懸念が解消された。

ティア	モデル	ライセンス	コンテキスト	特徴・ベンチマーク
⚪ Haiku相当	Gemma 4 31B（Dense） 2026/4/2	Apache 2.0（Gemma初）	256K	MMLU-Pro 85.2、AIME 2026 89.2%⚠️（Gemini 3系と同基盤）。Chatbot Arena #3相当⚠️。画像+音声入力（出力はテキストのみ）。Q4で約17GB（RTX 4090に収まる）。140+言語。
🔵 Nano級（速度重視）	Gemma 4 26B-A4B（MoE） 2026/4/2	Apache 2.0	256K	26B総/4B活性。31B Denseの約97%の品質でQ4時の推論速度は大幅高速。RTX 3090/4090でも高速。Chatbot Arena #6相当⚠️。
🔵 Nano級	Gemma 4 E4B（約4.5B） 2026/4/2	Apache 2.0	128K	テキスト+画像+音声入力。MediaPipe/LiteRT対応。RTX 3060で動作。
🟡 Pico級	Gemma 4 E2B（約2.3B） 2026/4/2	Apache 2.0	128K	スマートフォン・エッジ向け。音声入力対応。ollama run gemma4で1コマンド起動可。
⚪ Haiku相当	Gemma 3 27B 2025/3	Gemmaライセンス（商用可）	128K	Chatbot Arena ELO 1339（o1-preview相当）⚠️。MMLU-Pro 67.5、GPQA Diamond 42.4。Q4で約16GB（RTX 4080 16GBに収まる）。先代のリファレンスモデル。

DeepSeek系（オープンウェイト版）

⚠️ DeepSeek R2は2026年6月時点で未リリース。 公式発表・APIエントリなし。2026年4月24日にDeepSeek V4（V4-Pro/V4-Flash）がAPIとオープンウェイトで出荷されたのが最新の公式リリース。R2（次世代推論モデル）は噂のみで確認情報なし。

ティア	モデル	ライセンス	特徴・ベンチマーク（ローカル動作観点）
🟣 フロンティアオープン	DeepSeek-V3 / V3.x 671B、2024/12〜	MIT	MMLU 88.5、MMLU-Pro 75.9、GPQA 59.1✅（論文記載値）。128Kコンテキスト。FP8で約685GB。SGLang・vLLM・TensorRT-LLM・LMDeploy・AMD・Ascend対応。H100×8前提。
⚪ Haiku相当	DeepSeek-R1-Distill-Qwen-32B 2025/1	Apache 2.0	推論特化蒸留版。AIME 2024 72.6、MATH-500 94.3⚠️。Q4で約19GB（RTX 4090）。
🔵 Nano級	DeepSeek-R1-Distill-Qwen-14B / 7B 2025/1	Apache 2.0	14B Q4で約9GB（RTX 4060Ti 16GBに収まる）。7B Q4で約5GB（RTX 3060）。R1の推論能力を低コストで活用可。
🔵 Nano級	DeepSeek-R1-Distill-Llama-8B / 70B 2025/1	Llamaライセンス	8B Q4で約5GB。70B Q4で約38GB（デュアルRTX 4090必要）。AIME 70.0、MATH-500 94.5⚠️（70B）。

Llama系（Meta）

⚠️ Llama 4 Behemoth（約2T総/288B活性）は2026年4月時点で学習継続中・未公開。 公式発表で「教師モデル」と位置付けられており、一般向けウェイト出荷の予定は未発表。Behemothをベースとした計画は立てないこと。2026年現在のLocak用途での現実的な選択肢はScoutとMaverick、およびLlama 3.3 70Bとなる。

ティア	モデル	ライセンス	特徴・ベンチマーク
🟣 フロンティアオープン（ハード要求大）	Llama 4 Maverick 400B総/17B活性、2025/4	Llama 4 Community（商用可・700M MAU制限）	1M。128エキスパートMoE。マルチモーダル。MMLU-Pro 80.5⚠️。Q4で200GB+。ローカル動作は非現実的（H100×8以上必要）。
⚪ Haiku相当	Llama 4 Scout 109B総/17B活性、2025/4	Llama 4 Community	10Mトークンコンテキストが最大の特徴。MMLU-Pro 74.3✅。16エキスパートMoE。Int4でH100 1基、Q4で約55〜60GB（デュアルRTX 5090または単一H100 80GB）。
⚪ Haiku相当	Llama 3.3 70B 2024年末	Llama Community	128K。MMLU Chat 86.0、IFEval 92.1⚠️（405Bを上回る指示追従）。テキスト専用。Q4で約39〜43GB（デュアルRTX 4090必要）。
🔵 Nano級	Llama 3.1 / 3.2 8B	Llama Community	128K。Q4で約5GB（RTX 3060で動作）。エコシステム最大のモデル。微調整版が多数。
🟡 Pico級	Llama 3.2 1B / 3B	Llama Community	128K（ExecuTorchでモバイル版は8K）。Arm/Qualcomm最適化済み。ExecuTorch経由でAndroid/iOS動作実証済み。

⚠️ Llamaライセンスの注意点：月間アクティブユーザー7億以上の企業は別途Meta許諾が必要。EUではマルチモーダル版に追加制限あり。OSI基準の「オープンソース」には非該当。

Mistral / Mixtral系

ティア	モデル	ライセンス	特徴・ベンチマーク
🟣 フロンティアオープン	Mistral Large 3 675B総/41B活性、2025/12	Apache 2.0（使用制限なし）	256K。sparse MoE。MATH-500 93.6⚠️。3,000台のH200で学習。商用利用の制限がない点でLlamaとの差別化ポイント。EU・GDPR対応でのデータ主権観点でも強み。
⚪ Haiku相当	Mistral Small 3.1 24B 2025/3	Apache 2.0	128K。Vision対応。単一RTX 4090または32GB RAM MacBookで量子化動作可能。
🔵 Nano級	Mistral Nemo 12B	Apache 2.0	128K。128Kが扱える中型モデル。Q4で約7GB。
🔵 Nano級（コード特化）	Codestral 2508 2025/8	⚠️ MNPL（非商用）	256K。FIM補完・IDE統合向け低レイテンシ。ライセンス要注意：非商用のみ。商用IDE統合にはMistral APIが必要。
🔵 Nano級	Mistral 7B	Apache 2.0	初代。エコシステム豊富。Q4で約4GB。

Phi系（Microsoft）— SLMのパイオニア

ティア	モデル	ライセンス	特徴・ベンチマーク
⚪ Haiku下位	Phi-4（14B） 2024年末	MIT	高品質合成データ学習。GPQA Diamond 56.1、HumanEval 82.6⚠️。Windows/Azure Edgeデフォルト候補。Q4で約9GB（RTX 4060Ti 16GBに収まる）。
🔵 Nano級	Phi-4 Mini（3.8B） 2026年初頭	MIT	MMLU 73.0でLlama 3.1 8B相当⚠️。Q4で約2.5GB。RTX 4090で300+ tok/s。スマートフォン・Raspberry Pi・WebLLMで動作。推論強化版（reasoning/reasoning-plus）あり。
🟡 Pico級	Phi-3 Mini（3.8B）	MIT	MMLU 69、4bit量子化で約1.8GB。iPhone 14（A16 Bionic）での実機動作を実証済み（arXiv技術レポート記載）。WindowsデバイスへのオンデバイスAI実装のリファレンス。

GLM系（Zhipu AI / Z.ai）

ティア	モデル	ライセンス	特徴・ベンチマーク
🟣 フロンティアオープン	GLM-5.1 744B総/40B活性、2026/4	MIT	SWE-bench Verified 78.9⚠️。tool-use/codings特化。8×H100で自己ホスト可能。
⚪ Haiku相当	GLM-4.5-Air 106B総/12B活性	MIT	MoE。tool-use/codings特化、reasoning切替対応。tool-useベンチでClaude Sonnet 4を上回る⚠️。12B活性でコンシューマーGPU動作可（総106GBのVRAM必要）。
🔵 Nano級	GLM-Z1-9B / GLM-4-9B	MIT	9B。GLM-4.1V-9B-ThinkingはQwen-2.5-VL-72Bに18ベンチで匹敵⚠️。Q4で約5.5GB。RTX 3060で動作。

Kimi系（Moonshot AI）

ティア	モデル	ライセンス	特徴・ベンチマーク
🟣 フロンティアオープン	Kimi K2.6 約1T総/32B活性、2026/4	Modified MIT	256K。AA Index 54✅（前回記事参照）。SWE-Bench Pro 58.6でオープンウェイト最高水準⚠️。スワームサンプリング（300サブエージェント・13時間連続稼働）。

カテゴリ2：日本語特化オープンウェイトモデル 🇯🇵

⚠️ 重要な現実：Nejumi Leaderboard 4（2025年12月18日時点）の総合Top50に国産フルスクラッチモデルは1つも入っていない。「オープンウェイトで日本語が最も得意なモデルはQwen系（中国製）」という逆転現象が起きている。一方、データ主権・オンプレ完結・政府調達適格性では国産モデルが不可欠な場面がある。

⚠️ 「日本産」の定義に注意：Swallow系はQwen/GPT-OSSのファインチューン、ELYZAはLlamaベース、Rakuten AI 3.0はDeepSeek V3ベースのファインチューン（後述）。フルスクラッチはPLaMo、LLM-jp、Sarashina、NTT tsuzumi、Stockmark等に限られる。

ティア	モデル（企業）	ライセンス	特徴・注意点
🔶 フルスクラッチ系（真の国産モデル）
🔵 Nano〜⚪ Haiku	Sarashina2-70B（SB Intuitions） 2024/8	MIT	フルスクラッチ、約2.1Tトークン学習。日本語QAトップクラス（自社比較⚠️）。指示チューニングなし（ベースモデル）。Q4で約40GB（デュアルRTX 4090必要）。
🟡 Pico〜🔵 Nano	Sarashina2.2（0.5B/1B/3B）（SB Intuitions） 2025/2〜3	MIT・商用可	3Bでも日本語数学（MGSM-ja）・コーディング（JHumanEval）でSarashina2-70Bを上回ると報告⚠️。Sarashina2-Vision-8B/14Bも同時期公開。
⚪ Haiku（暫定）	Stockmark-2-100B（ストックマーク） 2025/3	MIT	フルスクラッチ、約1.5Tトークン、GQA・32Kコンテキスト。ビジネスQA 90%（GPT-4o 88%超⚠️自社評価）。NVIDIA NIM対応（2025/9）。トヨタ・パナソニック等に導入実績。
🔵 Nano（暫定）	LLM-jp-4（国立情報学研究所） 2026年	❓（研究利用主体）	11.7Tトークン学習、Qwen3 MoEアーキテクチャ採用（ウェイトは新規学習）。JP MT-Bench 7.82でGPT-4o（7.29）を上回る⚠️。完全な再現可能性重視の研究用途。
⚪ Haiku（暫定）	PLaMo 3.0 Prime β（Preferred Networks） 2026/3/19	PLaMo Community License（商用要連絡） 1Bモデルのみ Apache 2.0	フルスクラッチ再構築、Samba系ハイブリッドアーキテクチャ（Mamba2+attention）。日本初のスクラッチ推論モデル。NICT共同開発。64Kコンテキスト。β版・商用版は6月中旬以降予定。独立評価なし（暫定）。
🔵 Nano	NVIDIA Nemotron Nano 9B v2 Japanese 2026/2/17	NVIDIA Nemotron Open Model License	Mamba-2+Transformerハイブリッド。128Kコンテキスト。Nejumi Leaderboard 4 sub-10Bカテゴリ1位（TOTAL_AVG約0.711）✅。日本語9B以下最強候補。
🔶 ファインチューン系（ベースモデルに注意）
🟣 フロンティアオープン（暫定）	Rakuten AI 3.0（楽天） 2026/3/17	Apache 2.0（⚠️当初MIT削除問題あり）	⚠️ DeepSeek-V3ベースのファインチューンと判明（config.jsonに"deepseek_v3"）。リリース数時間でコミュニティが発見し炎上。当初MIT削除でライセンス違反、批判後にNOTICEファイル追加で対処。GENIACプロジェクト（経産省・NEDO）資金。日本語ベンチで優秀（自社比較⚠️）だが「国産AI」としての位置づけは要注意。DeepSeek懸念がある組織は調達審査が必要。
🔵 Nano	Rakuten AI 2.0（8x7B MoE）/ mini（1.5B）（楽天） 2025/2/12	Apache 2.0	47B総/13B活性MoE。Japanese MT-Bench 7.08⚠️。HuggingFace公開・実際にローカル動作実績あり。mini（1.5B）も同日公開、Apache 2.0。
⚪ Haiku下位〜Haiku	GPT-OSS Swallow 120B（東京科学大学/AIST） 2026/2/20	GPT-OSSベースの制限に依存	GPT-OSSに日本語継続事前学習。JP MT-Bench 0.916でGPT-5.1 Thinking（0.897）を上回る✅。知識スコアは低め（0.642）と品質に乖離あり。120BはQ4でH100必要級。
🔵 Nano	Llama-3-ELYZA-JP-8B（ELYZA/KDDI） 2024/6	Llama 3 Community	LlamaベースのJP特化FT。HuggingFaceでGGUF/AWQ版も公開。Q4で約5GB。デジタル庁「政府AI」プログラムに70B版が採用（70B版はウェイト非公開）。
⚪ Haiku下位	ELYZA-Thinking-1.0-Qwen-32B（ELYZA/KDDI） 2025/5頃	Apache 2.0	Qwen2.5-32B-InstructベースのJP特化チューニング。HuggingFace公開、128Kコンテキスト。Swallowリーダーボードに収録。

⚠️ 国産モデル共通注意事項：性能データは大半が自社評価値（⚠️）で、Artificial Analysis等の国際独立評価が存在するものはゼロ（2026年6月時点）。「JGLUEで世界最高」「GPT-4超え」等は評価条件・比較対象バージョンに強く依存する。2027年1月の政府AI「源内」評価結果公表が初の政府公式横断比較データになる見込み。

カテゴリ3：推論フレームワーク比較（2026年6月）

フレームワーク	形式	推奨用途	特徴・注意点
Ollama	GGUF中心	個人・開発者入門	最も簡単な1コマンド起動。Apple Silicon MLXバックエンド対応（0.19〜、2026/3）。主要モデル（Llama/Qwen/Gemma/DeepSeek/Phi/Mistral）全対応。単一ユーザー前提・マルチユーザー本番には不向き。
llama.cpp（GGUF）	GGUF	最軽量・低スペック環境	CUDA/ROCm/Vulkan/Metal/CPU全対応。最軽量・最広範な互換性。Qwen 3.6 MTP対応。LM Studioの内部エンジン。
vLLM	HuggingFace/FP8	本番マルチユーザーサーバー	PagedAttention+継続バッチングで高並列時にOllamaの十数倍〜20倍スループット（同一ハード）。DeepSeek V4 on Blackwell対応（v0.21）。NVIDIA/AMD/TPU/Ascend/Apple対応。本番API提供に最適。
LM Studio	GGUF	GUI重視・ビジネス用途	HuggingFaceモデルブラウザ内蔵。continuous batching対応（0.4.0）。Windows/Mac/Linuxのデスクトップアプリ。llama.cppベース。
MLX（Apple）	MLX専用	Mac専用・高速推論	Apple Silicon専用。M5世代でM4比プロンプト処理4倍高速化。OllamaのApple Siliconバックエンドとして採用。M5 Max 128GBで70B Q4を快適動作。
SGLang / TensorRT-LLM	各種	エンタープライズ高速化	DeepSeek-V3の公式推奨バックエンド。TensorRT-LLMはNVIDIA GPU特化・最高速。HuggingFace TGIは2025/12よりメンテナンスモード。

カテゴリ4：ライセンス分類まとめ

ライセンス種別	商用利用	主なモデル
Apache 2.0	✅ 完全自由（制限なし）	Qwen3/3.5/3.6全般、QwQ-32B、Mistral 7B/Nemo/Small/Mixtral/Large 3、Gemma 4全サイズ（Gemmaシリーズ初）、Rakuten AI 2.0/3.0（ただし3.0はライセンス問題あり）、DeepSeek-R1-Distill-Qwen系
MIT	✅ 完全自由（制限なし）	DeepSeek-V3/R1（コード・モデルライセンス）、Sarashina2-70B/2.2、Stockmark-2-100B、GLM-4.6/5.1、Phi-4/Phi-4 Mini/Phi-3 Mini
Llama Community License	⚠️ 条件付き（MAU制限・EUマルチモーダル制限あり）	Llama 3.x全系・Llama 4（Scout/Maverick）、ELYZA-JP（Llama 3/3.1ベース）
Gemma Terms of Use（旧Gemma 3まで）	⚠️ 一部制限（エンタープライズ法務審査が必要なケースあり）	Gemma 3（1B/4B/12B/27B）、Gemma 2
Codestral MNPL	❌ 非商用のみ	Codestral 2508（コード特化）。商用利用にはMistral APIを利用すること
Sarashina2-8x70B独自ライセンス	❌ 非商用のみ	Sarashina2-8x70B（460B MoE版）

まとめ：ティア対応表と選定指針（2026年6月）

ティア	主な選択肢	必要ハードウェア	選定ポイント
🟣 フロンティアオープン（Sonnet〜Opus相当）	DeepSeek-V3（MIT） Qwen3.5-397B（Apache） Mistral Large 3（Apache） Kimi K2.6（Modified MIT）	H100×8以上またはMac Ultra 192GB	商用無制限を重視するならMistral Large 3（Apache 2.0）が唯一Llama制限なし。EU・GDPR対応でも差別化。DeepSeek-V3（MIT）はコスパ最高だがデータガバナンス審査が必要。
⚪ Haiku相当	Qwen3.6-27B（コード最強） Gemma 4 31B（汎用・マルチモーダル） QwQ-32B / R1-Distill-32B（推論）	RTX 4090（24GB）〜RTX 5090（32GB）	コーディング最優先：Qwen3.6-27B（Apache 2.0、SWE-bench 77.2⚠️）。汎用・Vision必要：Gemma 4 31B（Apache 2.0）。推論特化：QwQ-32B（Apache 2.0）またはR1-Distill-Qwen-32B（Apache 2.0）。
🔵 Nano級（Haiku下位〜準Haiku）	Qwen3 8B / 14B（Apache） Gemma 4 E4B（Apache） Phi-4 Mini（MIT） GLM-Z1-9B（MIT） NVIDIA Nemotron 9B JP（日本語）	RTX 3060（12GB）〜RTX 4060Ti（16GB）	日本語重視：NVIDIA Nemotron Nano 9B JP（Nejumi sub-10B 1位✅）。汎用英語：Qwen3 8B（Apache 2.0）。軽量推論：Phi-4 Mini（MIT）。
🟡 Pico級（スマートフォン・エッジ）	Phi-3 Mini / Phi-4 Mini Q4（MIT） Qwen3 0.6B〜1.7B（Apache） Gemma 4 E2B（Apache） Llama 3.2 1B/3B（Llama）	スマートフォン Raspberry Pi CPU専用PC	iPhone実機実証：Phi-3 Mini（4bit 1.8GB）。Android/Arm最適化：Llama 3.2 1B/3B（ExecuTorch）。日本語重視：Qwen3 1.7B（Apache 2.0）。

判断を変える閾値

VRAMが16GB未満→ 32B以上は諦め14B Q4以下に集中。Gemma 4 26B MoEはQ4で8GB前後が目安でお得。
商用利用でMAU制限が懸念→ Llamaを避けApache 2.0（Qwen3.6、Gemma 4、Mistral Large 3）またはMIT（DeepSeek、Phi）系へ。
日本語の「知識精度」が重要→ MT-Bench（会話品質）ではなくjaster/JMMLU/Nejumi総合スコアで判断。GPT-OSS Swallow 120BはMT-Bench 0.916だが知識スコアは0.642と乖離大きい。
DeepSeek由来のセキュリティ懸念がある組織→ Rakuten AI 3.0（DeepSeek V3 FT）、R1-Distill-Qwen系（R1蒸留）も対象になりうる。MIT/Apache 2.0のQwen系フルスクラッチ版（Qwen3.6-27Bなど）は異なる。
70Bを単一コンシューマーGPUで動かしたい→ RTX 5090（32GB）でも70B Q4（約38GB）は短いコンテキスト専用。長文推論にはデュアルRTX 5090（64GB合計）またはMac Studio M5 Max（128GB統合メモリ）が必要。

本記事のデータは2026年6月18日時点の調査に基づく。Nejumi Leaderboard 4（2025年12月18日版・2026年3月6日版）、Artificial Analysis（前回記事参照）、各社公式ブログ・HuggingFaceモデルカードを参照。ベンチマーク数値は記事公開後も更新されるため、最新値は各リーダーボードで確認されたい。なお本記事では富士通MONAKA（2027年リリース予定のCPU）およびTakane 32B（富士通エンタープライズ専用・ウェイト非公開）はローカル動作製品に該当しないため記載対象外とした。

情報セキュリティばんざい！

木曜日, 6月 18, 2026

ローカルLLM（オープンウェイトモデル）徹底比較 2026年6月版