ChatGPTやClaudeは便利だが、インターネット接続が必要で、会話内容が外部に送信される。機密情報を扱う場合や、オフライン環境で使いたい場合には不向きだ。
そこで注目されているのがローカルLLM——自分のPCでAIモデルを動かす方法だ。
2026年現在、ローカル実行の敷居は大幅に下がった。高性能なオープンソースモデルが次々と公開され、Ollamaのような簡単なツールも登場している。
本記事では、ローカルLLMの始め方から、おすすめモデル、実践的な活用方法までを解説する。
結論: 入門にはOllama + Llama 3 8Bがおすすめ。GUIが欲しければLM Studio。RTX 3060以上があれば快適に動作する。
ローカルLLMとは
クラウドAPIとの違い
| 項目 | クラウドAPI | ローカルLLM |
|---|---|---|
| インターネット | 必要 | 不要 |
| プライバシー | データ送信あり | 完全ローカル |
| コスト | 従量課金 | 初期投資のみ |
| 性能 | 最高峰 | 中〜高 |
| セットアップ | 簡単 | やや手間 |
ローカルLLMのメリット
- プライバシー保護: 会話内容が外部に送信されない
- オフライン利用: インターネット不要
- コスト削減: 電気代のみ(APIコスト不要)
- カスタマイズ: ファインチューニング可能
- レイテンシ: ネットワーク遅延なし
デメリット
- 初期投資: GPU購入が必要(8万円〜)
- 性能上限: GPT-4oやClaude 3.5には及ばない
- セットアップ: 初回設定に手間がかかる
- ストレージ: モデルファイルが大きい(4GB〜70GB)
必要スペック
最低スペック(7Bモデル向け)
| 項目 | 要件 |
|---|---|
| GPU | RTX 3060 12GB / RTX 4060 8GB |
| VRAM | 8GB以上 |
| RAM | 16GB以上 |
| ストレージ | SSD 50GB以上 |
| OS | Windows 10/11, macOS, Linux |
推奨スペック(13B〜70Bモデル向け)
| 項目 | 要件 |
|---|---|
| GPU | RTX 4080 16GB / RTX 4090 24GB |
| VRAM | 16GB以上 |
| RAM | 32GB以上 |
| ストレージ | NVMe SSD 200GB以上 |
Apple Silicon Mac
M1/M2/M3 MacはUnified Memoryを活用でき、意外と快適に動作する。
| チップ | 動作するモデル |
|---|---|
| M1/M2 (8GB) | 7Bモデル(やや遅い) |
| M1/M2 Pro (16GB) | 13Bモデル |
| M2/M3 Max (32GB) | 70Bモデル(量子化版) |
| M2/M3 Ultra (64GB+) | 70Bフル精度 |
ツール比較
主要ツール一覧
| ツール | 特徴 | 難易度 |
|---|---|---|
| Ollama | CLI中心、最も簡単 | ★☆☆ |
| LM Studio | GUI、初心者向け | ★☆☆ |
| llama.cpp | 軽量、上級者向け | ★★★ |
| vLLM | 高速推論、本番向け | ★★★ |
| text-generation-webui | 多機能、カスタマイズ性高 | ★★☆ |
Ollamaで始めるローカルLLM
Ollamaは、最も簡単にローカルLLMを始められるツール。コマンド1つでモデルのダウンロードから実行まで完了する。
インストール
macOS / Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows: 公式サイトからインストーラーをダウンロード。
基本的な使い方
# Llama 3 8Bをダウンロード&実行
ollama run llama3
# 対話開始
>>> こんにちは、自己紹介してください
# 終了
>>> /bye
人気モデル
# Llama 3シリーズ(Meta)
ollama run llama3 # 8B、バランス型
ollama run llama3:70b # 70B、高品質
# Mistral(欧州発、高速)
ollama run mistral # 7B
ollama run mixtral # 8x7B MoE
# Gemma(Google)
ollama run gemma2 # 9B/27B
# Phi-3(Microsoft、軽量高性能)
ollama run phi3 # 3.8B
# CodeLlama(コード特化)
ollama run codellama # 7B/13B/34B
# 日本語特化
ollama run elyza:jp # 日本語Llama
API利用
OllamaはOpenAI互換のAPIを提供。既存のアプリと連携可能。
# APIサーバー起動(デフォルトで自動起動)
ollama serve
# curlでアクセス
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "日本の首都は?",
"stream": false
}'
Pythonから利用
import ollama
response = ollama.chat(
model='llama3',
messages=[
{'role': 'user', 'content': 'Pythonで素数を判定する関数を書いて'}
]
)
print(response['message']['content'])
LM Studioで始めるローカルLLM
LM Studioは、GUIで操作できる初心者向けツール。モデルの検索・ダウンロード・実行がすべてGUIで完結する。
インストール
公式サイトからダウンロード。Windows/macOS/Linux対応。
基本的な使い方
- モデル検索: 左サイドバーの「Discover」でモデルを検索
- ダウンロード: 好みのモデルの「Download」ボタンをクリック
- 実行: 「Chat」タブでモデルを選択し、対話開始
おすすめモデル(LM Studio用)
| モデル | サイズ | 特徴 |
|---|---|---|
| TheBloke/Llama-3-8B-GGUF | 4-8GB | 汎用、バランス型 |
| TheBloke/Mistral-7B-GGUF | 4-7GB | 高速、コード得意 |
| ELYZA-japanese-Llama-2-7b-GGUF | 4GB | 日本語特化 |
ローカルサーバー機能
LM Studioは、OpenAI互換のローカルサーバーを立てられる。
- 「Local Server」タブを開く
- モデルを選択
- 「Start Server」をクリック
http://localhost:1234/v1でアクセス可能
モデルの選び方
パラメータ数の目安
| サイズ | VRAM目安 | 用途 |
|---|---|---|
| 3B〜7B | 6-8GB | 軽量タスク、チャット |
| 8B〜13B | 10-16GB | 汎用、コード生成 |
| 30B〜34B | 24GB+ | 高品質な応答 |
| 70B | 48GB+ | 最高品質 |
量子化について
モデルを圧縮してVRAM使用量を削減する技術。
| 量子化 | サイズ削減 | 品質 |
|---|---|---|
| F16(フル精度) | 0% | 100% |
| Q8 | 50% | 99% |
| Q5 | 65% | 95% |
| Q4 | 75% | 90% |
| Q2 | 85% | 80% |
おすすめはQ4〜Q5。品質を大きく落とさずにVRAMを節約できる。
用途別おすすめモデル
| 用途 | おすすめモデル |
|---|---|
| 日常会話 | Llama 3 8B |
| コード生成 | CodeLlama 13B / DeepSeek Coder |
| 日本語特化 | ELYZA-japanese-Llama-2 |
| 軽量・高速 | Phi-3 / Gemma 2 |
| 最高品質 | Llama 3 70B / Mixtral 8x22B |
活用テクニック
1. システムプロンプトの設定
# Ollamaでシステムプロンプト指定
ollama run llama3 --system "あなたは優秀なPythonプログラマーです"
2. RAG(検索拡張生成)
ローカルLLMと組み合わせて、自社ドキュメントを検索・回答するシステムを構築。
# LangChain + Ollamaの例
from langchain_community.llms import Ollama
from langchain_community.vectorstores import Chroma
llm = Ollama(model="llama3")
# ドキュメントをベクトル化して検索...
3. Continue(VSCode拡張)
VSCodeからローカルLLMを使ってコーディング支援。
- Continue拡張をインストール
- 設定でOllamaを指定
- Ctrl+Lでコード補完・質問
4. Open WebUI
ブラウザベースのChatGPT風インターフェース。
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
トラブルシューティング
VRAMが足りない
# 量子化版を使用
ollama run llama3:8b-q4_0
# または小さいモデルに変更
ollama run phi3
生成が遅い
- 量子化版を使用(Q4推奨)
- コンテキスト長を短くする
- GPU温度を確認(サーマルスロットリング)
日本語の精度が低い
- 日本語特化モデルを使用(ELYZA、Japanese-Llama等)
- プロンプトを英語で書いて、回答のみ日本語指定
You are a helpful assistant. Please respond in Japanese.
User: Explain quantum computing.
まとめ
ローカルLLMは、2026年現在で十分実用レベルに達している。
| こんな人に | おすすめ |
|---|---|
| 初めて試す | Ollama + Llama 3 8B |
| GUIで使いたい | LM Studio |
| 日本語重視 | ELYZA-japanese-Llama |
| コード生成 | CodeLlama / DeepSeek Coder |
| 最高品質 | Llama 3 70B(要RTX 4090) |
始め方:
- Ollamaをインストール
ollama run llama3で即座に試す- 用途に合わせてモデルを変更
クラウドAPIに月額$20払う前に、まずはローカルLLMを試してみてはいかがだろうか。