ローカルLLMの世界は、半年前とまるで別物になった。2025年後半から2026年にかけて、オープンソースモデルの性能がクラウドAPIに急速に迫りつつある。Qwen 2.5 Coder 32BはGPT-4oと同等のコーディング性能を叩き出し、DeepSeek-R1はChain-of-Thought推論で新たな水準を打ち立てた。ハードウェア面でも、AMD ROCmの成熟によりNVIDIA一択の時代は終わりを告げている。
本記事では、ローカルLLM入門ガイドの次のステップとして、2026年2月時点の最新モデル選定、予算別ハードウェア構成、実践的な開発環境の構築方法を解説する。
この記事の対象: ローカルLLMの基本(Ollamaのインストール、基本的なモデル実行)を理解している方。初めての方は入門ガイドを先に参照されたい。
2026年のモデル勢力図
コーディング特化モデル
2026年のローカルコーディング環境は、Qwen 2.5 Coderの登場で一変した。LiveCodeBenchのスコアで31.4を記録し、GPT-4oの31.1を上回る結果が報告されている。24GB VRAMのRTX 4090に収まる32Bパラメータで、クラウドAPI相当の性能が手元で動く。
| モデル | パラメータ | VRAM(Q4) | コーディング性能 | 特徴 |
|---|---|---|---|---|
| Qwen 2.5 Coder 32B | 32B | ~19GB | ★★★★★ | GPT-4o相当、Apache 2.0 |
| DeepSeek-R1-Distill 14B | 14B | ~8GB | ★★★★☆ | Chain-of-Thought推論 |
| Qwen 2.5 Coder 7B | 7B | ~5GB | ★★★☆☆ | 8GB VRAMで動作 |
| CodeLlama 13B | 13B | ~8GB | ★★★☆☆ | 高速イテレーション向き |
汎用モデル
汎用モデルでは、Llama 3.3 70BとQwen 2.5 72Bが双璧をなす。ただし70B級は48GB以上のVRAMを要するため、多くのユーザーにとっては14B〜32Bクラスが現実的な選択肢である。
| モデル | パラメータ | VRAM(Q4) | 品質 | ライセンス |
|---|---|---|---|---|
| Llama 3.3 70B | 70B | ~40GB | ★★★★★ | Llama 3.3 |
| Qwen 2.5 72B | 72B | ~42GB | ★★★★★ | Apache 2.0 |
| Gemma 3 27B | 27B | ~16GB | ★★★★☆ | Google利用規約 |
| Phi-4 Mini | 3.8B | ~2GB | ★★★☆☆ | MIT |
注目すべきはPhi-4 Miniの存在だ。わずか3.8Bパラメータながら、Microsoftの合成データ学習により、同サイズ帯で群を抜く性能を実現している。8GB RAMのノートPCでも動作するため、入門や軽量タスクに最適である。
日本語対応の現状
日本語性能においては、Qwen 2.5シリーズが頭一つ抜けている。中国語と日本語の漢字圏の親和性もあり、Llama系と比較して日本語の自然さが際立つ。ELYZA-japanese-Llamaなどの日本語特化モデルも選択肢にあるが、汎用性を考えるとQwen 2.5を推奨する。
VRAM別モデル選定ガイド
手持ちのGPUから逆引きで最適なモデルを選ぶための早見表である。量子化はQ4(4bit)を基準としている。
8GB VRAM(RTX 4060 / RX 7600)
入門レベル。軽量モデルで基本的なチャットとコード補完が可能。
ollama run phi4-mini # 汎用、超軽量
ollama run qwen2.5-coder:7b # コーディング補助
ollama run gemma3:4b # Google製、バランス型
16GB VRAM(RTX 4070 Ti / RX 7800 XT / M3 Pro)
実用レベル。14Bクラスのモデルで本格的なコーディング支援が可能。
ollama run qwen2.5:14b # 汎用
ollama run deepseek-r1:14b # 推論特化
ollama run gemma3:12b # Google製
24GB VRAM(RTX 4090 / RX 7900 XTX / M4 Pro 24GB)
最もコストパフォーマンスが高い構成。GPT-4o相当のコーディングモデルがローカルで動作する。
ollama run qwen2.5-coder:32b # コーディング最強
ollama run deepseek-r1:32b # 推論最強
ollama run gemma3:27b # 汎用高品質
48GB以上(デュアルRTX 3090 / M4 Max 64GB)
フロンティアレベル。クラウドAPIに匹敵する品質をオフラインで実現する。
ollama run llama3.3:70b # GPT-4レベル汎用
ollama run qwen2.5:72b # Apache 2.0、商用OK
予算別ハードウェア構成
5万円構成(中古GPU活用)
| パーツ | 選択肢 | 予算 |
|---|---|---|
| GPU | RTX 3060 12GB(中古) | ~25,000円 |
| CPU | Ryzen 5 5600 | ~15,000円 |
| RAM | 32GB DDR4 | ~8,000円 |
動作モデル: 7B〜14B(Q4)。入門用途としては十分な構成である。
15万円構成(新品NVIDIA)
| パーツ | 選択肢 | 予算 |
|---|---|---|
| GPU | RTX 4070 Ti Super 16GB | ~100,000円 |
| CPU | Ryzen 7 7700 | ~35,000円 |
| RAM | 32GB DDR5 | ~15,000円 |
動作モデル: 14B(Q4〜Q8)。日常的なコーディング支援に対応する。
15万円構成(AMD高コスパ)
| パーツ | 選択肢 | 予算 |
|---|---|---|
| GPU | RX 7900 XTX 24GB | ~100,000円 |
| CPU | Ryzen 7 7700 | ~35,000円 |
| RAM | 32GB DDR5 | ~15,000円 |
動作モデル: 32B(Q4)。RTX 4090と同じ24GB VRAMを、約半額で確保できる。AMD ROCmの成熟により、Ollama・vLLMでの実行が安定している。RX 7900 XTXとWSL2の組み合わせで、Qwen 2.5-7Bが272 tok/sという報告もある。
30万円構成(RTX 4090)
| パーツ | 選択肢 | 予算 |
|---|---|---|
| GPU | RTX 4090 24GB | ~280,000円 |
| CPU | Ryzen 9 7900X | ~50,000円 |
| RAM | 64GB DDR5 | ~25,000円 |
動作モデル: 32B(Q4〜Q8)。現時点のスイートスポットである。Qwen 2.5 Coder 32BをQ4で動かしてGPT-4o相当の性能が得られる。RTX 4090はFP8/NVFP4量子化にも対応しており、将来のモデルにも対応しやすい。
Apple Silicon構成
| 構成 | 統合メモリ | 動作モデル | 価格帯 |
|---|---|---|---|
| MacBook Air M3 | 24GB | 14B(Q4) | ~200,000円 |
| MacBook Pro M4 Pro | 24-48GB | 32B(Q4) | ~350,000円 |
| Mac Studio M4 Max | 64-128GB | 70B(Q4〜Q8) | ~500,000円〜 |
Apple Siliconの利点はUnified Memoryにある。GPUとCPUがメモリを共有するため、VRAM容量の壁に悩まされない。NVIDIA GPU比で推論速度は30〜50%遅いものの、省電力で静音、かつ普段使いのMacがそのままLLMマシンになる点は大きなメリットだ。
AMD ROCmの現状(2026年)
2025年までは「ローカルLLM = NVIDIA一択」が常識だった。しかし2026年に入り、状況は大きく変わっている。
vLLMが2025年末にAMD GPUをfirst-class platformとして公式サポートを宣言した。ROCm 7.1.1のリリースにより、RX 7900 XTXでの安定動作が確認されている。Docker公式イメージも提供されており、セットアップの手間はNVIDIA環境と大差ない。
# AMD GPU + vLLMのDocker起動例
docker run --device=/dev/kfd --device=/dev/dri \
-p 8000:8000 \
rocm/vllm-dev:rocm7.1.1_navi_ubuntu24.04 \
--model Qwen/Qwen2.5-Coder-7B-Instruct
ただし注意点もある。FP8 KVキャッシュ量子化にはまだ対応しておらず、一部の最新最適化機能はNVIDIA専用である。エコシステムの広さでもCUDAに軍配が上がる。それでも、24GB VRAMを10万円で手に入れられるコストパフォーマンスは、予算が限られた個人開発者にとって強い選択肢となる。
コーディング環境との統合
ローカルLLMの真価は、IDE統合で発揮される。GitHub Copilotの代替として、ローカルモデルをVS Codeから直接呼び出す環境を構築できる。
Continue(VS Code拡張)
Continueは、Ollamaと連携してコード補完・チャット・リファクタリングを提供するオープンソース拡張である。
// ~/.continue/config.json
{
"models": [
{
"title": "Qwen 2.5 Coder 32B",
"provider": "ollama",
"model": "qwen2.5-coder:32b"
}
],
"tabAutocompleteModel": {
"title": "Qwen 2.5 Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
チャットには32Bモデル、タブ補完には高速な7Bモデルを割り当てる構成が実用的である。タブ補完は応答速度が重要なため、小型モデルを指定することでストレスのない体験を実現できる。
Cline(VS Code拡張)
Clineは、より自律的なエージェント型のコーディング支援を提供する。ファイルの読み書き、ターミナル操作まで自動実行するため、Claude CodeやCursorのAgent Modeに近い体験をローカルモデルで再現できる。Ollamaの他、LM StudioのAPIにも対応している。
Open WebUI
ブラウザベースのインターフェースが必要な場合は、Open WebUIが定番である。ChatGPT風の画面でローカルモデルを操作でき、RAG機能やドキュメントアップロードにも対応している。
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
ghcr.io/open-webui/open-webui:main
パフォーマンス最適化のポイント
量子化形式の選択
2026年現在、GGUFフォーマットが事実上の標準である。Ollamaは内部でllama.cppを使用しており、GGUF形式のモデルを直接ロードする。
| 量子化 | VRAMの節約 | 品質維持率 | 推奨用途 |
|---|---|---|---|
| Q8 | 50% | ~99% | 品質重視 |
| Q6_K | 58% | ~97% | バランス型 |
| Q4_K_M | 75% | ~93% | 最も汎用的 |
| Q4_K_S | 75% | ~91% | VRAM重視 |
| Q2_K | 85% | ~80% | 最小構成 |
Q4_K_Mを基準に選ぶのが現実的な判断である。VRAMに余裕がある場合はQ6_K以上を選択し、逆にVRAMが厳しい場合のみQ2_Kを検討する。
コンテキスト長の調整
デフォルトのコンテキスト長は多くの場合4096トークンだが、必要に応じて拡張できる。ただし、コンテキスト長を増やすとVRAM使用量が増加する点に注意する。
# コンテキスト長を8192に拡張
ollama run qwen2.5-coder:32b --num-ctx 8192
GPUオフロード設定
VRAM不足時は、一部のレイヤーをCPUにオフロードすることで、より大きなモデルを動かせる。速度は落ちるが、まったく動かないよりは有用である。
# Ollamaの場合、環境変数で制御
OLLAMA_NUM_GPU=20 ollama run llama3.3:70b
推奨構成の早見表
| 用途 | 予算 | GPU | モデル | ツール |
|---|---|---|---|---|
| 入門・学習 | 5万円 | RTX 3060 12GB | Phi-4 Mini / Qwen 2.5 7B | LM Studio |
| コーディング支援 | 15万円 | RX 7900 XTX 24GB | Qwen 2.5 Coder 32B | Ollama + Continue |
| 本格開発 | 30万円 | RTX 4090 24GB | Qwen 2.5 Coder 32B(Q6_K) | Ollama + Cline |
| Mac環境 | 35万円 | M4 Pro 48GB | Llama 3.3 70B(Q4) | Ollama |
| プロダクション | 50万円〜 | デュアルRTX 3090 | Llama 3.3 70B(Q8) | vLLM |
関連リンク
ツール・フレームワーク
- Ollama — ローカルLLM実行の標準ツール
- LM Studio — GUI操作向け
- Continue — VS Code統合
- Cline — エージェント型コーディング支援
- vLLM — 高スループット推論エンジン
- Open WebUI — ブラウザ型チャットUI
モデル情報
- Ollama Library — Ollama公式モデルカタログ
- Hugging Face — モデルリポジトリ
関連記事
- ローカルLLM入門ガイド — Ollama/LM Studioの基本から
- Claude vs ChatGPT vs Gemini 徹底比較 — クラウドLLMとの使い分け
- LLM API料金比較 — ローカル vs クラウドのコスト比較
- LLMの基礎知識2026 — LLMの仕組みから理解する
- VS Code 生産性を2倍にする拡張機能 — 開発環境の最適化
※ 価格・性能データは2026年2月時点の情報である。最新情報は各公式サイトを確認されたい。