ローカルLLM入門【2026年版】｜Ollama・LM Studioで自分のPCでAIを動かす

ChatGPTやClaudeは便利だが、インターネット接続が必要で、会話内容が外部に送信される。機密情報を扱う場合や、オフライン環境で使いたい場合には不向きだ。

そこで注目されているのがローカルLLM——自分のPCでAIモデルを動かす方法だ。

2026年現在、ローカル実行の敷居は大幅に下がった。高性能なオープンソースモデルが次々と公開され、Ollamaのような簡単なツールも登場している。

本記事では、ローカルLLMの始め方から、おすすめモデル、実践的な活用方法までを解説する。

結論: 入門にはOllama + Llama 3 8Bがおすすめ。GUIが欲しければLM Studio。RTX 3060以上があれば快適に動作する。

ローカルLLMとは

クラウドAPIとの違い

項目	クラウドAPI	ローカルLLM
インターネット	必要	不要
プライバシー	データ送信あり	完全ローカル
コスト	従量課金	初期投資のみ
性能	最高峰	中〜高
セットアップ	簡単	やや手間

ローカルLLMのメリット

プライバシー保護: 会話内容が外部に送信されない
オフライン利用: インターネット不要
コスト削減: 電気代のみ（APIコスト不要）
カスタマイズ: ファインチューニング可能
レイテンシ: ネットワーク遅延なし

デメリット

初期投資: GPU購入が必要（8万円〜）
性能上限: GPT-4oやClaude 3.5には及ばない
セットアップ: 初回設定に手間がかかる
ストレージ: モデルファイルが大きい（4GB〜70GB）

必要スペック

最低スペック（7Bモデル向け）

項目	要件
GPU	RTX 3060 12GB / RTX 4060 8GB
VRAM	8GB以上
RAM	16GB以上
ストレージ	SSD 50GB以上
OS	Windows 10/11, macOS, Linux

推奨スペック（13B〜70Bモデル向け）

項目	要件
GPU	RTX 4080 16GB / RTX 4090 24GB
VRAM	16GB以上
RAM	32GB以上
ストレージ	NVMe SSD 200GB以上

Apple Silicon Mac

M1/M2/M3 MacはUnified Memoryを活用でき、意外と快適に動作する。

チップ	動作するモデル
M1/M2 (8GB)	7Bモデル（やや遅い）
M1/M2 Pro (16GB)	13Bモデル
M2/M3 Max (32GB)	70Bモデル（量子化版）
M2/M3 Ultra (64GB+)	70Bフル精度

ツール比較

主要ツール一覧

ツール	特徴	難易度
Ollama	CLI中心、最も簡単	★☆☆
LM Studio	GUI、初心者向け	★☆☆
llama.cpp	軽量、上級者向け	★★★
vLLM	高速推論、本番向け	★★★
text-generation-webui	多機能、カスタマイズ性高	★★☆

Ollamaで始めるローカルLLM

Ollamaは、最も簡単にローカルLLMを始められるツール。コマンド1つでモデルのダウンロードから実行まで完了する。

インストール

macOS / Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: 公式サイトからインストーラーをダウンロード。

基本的な使い方

# Llama 3 8Bをダウンロード＆実行
ollama run llama3

# 対話開始
>>> こんにちは、自己紹介してください

# 終了
>>> /bye

API利用

OllamaはOpenAI互換のAPIを提供。既存のアプリと連携可能。

# APIサーバー起動（デフォルトで自動起動）
ollama serve

# curlでアクセス
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "日本の首都は？",
  "stream": false
}'

Pythonから利用

import ollama

response = ollama.chat(
    model='llama3',
    messages=[
        {'role': 'user', 'content': 'Pythonで素数を判定する関数を書いて'}
    ]
)
print(response['message']['content'])

LM Studioで始めるローカルLLM

LM Studioは、GUIで操作できる初心者向けツール。モデルの検索・ダウンロード・実行がすべてGUIで完結する。

インストール

公式サイトからダウンロード。Windows/macOS/Linux対応。

基本的な使い方

モデル検索: 左サイドバーの「Discover」でモデルを検索
ダウンロード: 好みのモデルの「Download」ボタンをクリック
実行: 「Chat」タブでモデルを選択し、対話開始

モデル	サイズ	特徴
TheBloke/Llama-3-8B-GGUF	4-8GB	汎用、バランス型
TheBloke/Mistral-7B-GGUF	4-7GB	高速、コード得意
ELYZA-japanese-Llama-2-7b-GGUF	4GB	日本語特化

ローカルサーバー機能

LM Studioは、OpenAI互換のローカルサーバーを立てられる。

「Local Server」タブを開く
モデルを選択
「Start Server」をクリック
http://localhost:1234/v1 でアクセス可能

モデルの選び方

パラメータ数の目安

サイズ	VRAM目安	用途
3B〜7B	6-8GB	軽量タスク、チャット
8B〜13B	10-16GB	汎用、コード生成
30B〜34B	24GB+	高品質な応答
70B	48GB+	最高品質

量子化について

モデルを圧縮してVRAM使用量を削減する技術。

量子化	サイズ削減	品質
F16（フル精度）	0%	100%
Q8	50%	99%
Q5	65%	95%
Q4	75%	90%
Q2	85%	80%

おすすめはQ4〜Q5。品質を大きく落とさずにVRAMを節約できる。

用途別おすすめモデル

用途	おすすめモデル
日常会話	Llama 3 8B
コード生成	CodeLlama 13B / DeepSeek Coder
日本語特化	ELYZA-japanese-Llama-2
軽量・高速	Phi-3 / Gemma 2
最高品質	Llama 3 70B / Mixtral 8x22B

活用テクニック

1. システムプロンプトの設定

# Ollamaでシステムプロンプト指定
ollama run llama3 --system "あなたは優秀なPythonプログラマーです"

2. RAG（検索拡張生成）

ローカルLLMと組み合わせて、自社ドキュメントを検索・回答するシステムを構築。

# LangChain + Ollamaの例
from langchain_community.llms import Ollama
from langchain_community.vectorstores import Chroma

llm = Ollama(model="llama3")
# ドキュメントをベクトル化して検索...

3. Continue（VSCode拡張）

VSCodeからローカルLLMを使ってコーディング支援。

Continue拡張をインストール
設定でOllamaを指定
Ctrl+Lでコード補完・質問

4. Open WebUI

ブラウザベースのChatGPT風インターフェース。

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

トラブルシューティング

VRAMが足りない

# 量子化版を使用
ollama run llama3:8b-q4_0

# または小さいモデルに変更
ollama run phi3

生成が遅い

量子化版を使用（Q4推奨）
コンテキスト長を短くする
GPU温度を確認（サーマルスロットリング）

日本語の精度が低い

日本語特化モデルを使用（ELYZA、Japanese-Llama等）
プロンプトを英語で書いて、回答のみ日本語指定

You are a helpful assistant. Please respond in Japanese.
User: Explain quantum computing.

まとめ

ローカルLLMは、2026年現在で十分実用レベルに達している。

こんな人に	おすすめ
初めて試す	Ollama + Llama 3 8B
GUIで使いたい	LM Studio
日本語重視	ELYZA-japanese-Llama
コード生成	CodeLlama / DeepSeek Coder
最高品質	Llama 3 70B（要RTX 4090）

始め方:

Ollamaをインストール
ollama run llama3 で即座に試す
用途に合わせてモデルを変更

クラウドAPIに月額$20払う前に、まずはローカルLLMを試してみてはいかがだろうか。

ローカルLLM入門【2026年版】｜Ollama・LM Studioで自分のPCでAIを動かす

ローカルLLMとは

クラウドAPIとの違い

ローカルLLMのメリット

デメリット

必要スペック

最低スペック（7Bモデル向け）

推奨スペック（13B〜70Bモデル向け）

Apple Silicon Mac

ツール比較

主要ツール一覧

Ollamaで始めるローカルLLM

インストール

基本的な使い方

人気モデル

API利用

Pythonから利用

LM Studioで始めるローカルLLM

インストール

基本的な使い方

おすすめモデル（LM Studio用）

ローカルサーバー機能

モデルの選び方

パラメータ数の目安

量子化について

用途別おすすめモデル

活用テクニック

1. システムプロンプトの設定

2. RAG（検索拡張生成）

3. Continue（VSCode拡張）

4. Open WebUI

トラブルシューティング

VRAMが足りない

生成が遅い

日本語の精度が低い

まとめ

関連リンク

ツール

モデル

関連記事