ローカルLLM入門【2026年版】|Ollama・LM Studioで自分のPCでAIを動かす
開発ツール New

ローカルLLM入門【2026年版】|Ollama・LM Studioで自分のPCでAIを動かす

自分のPCでLLMを動かす方法を徹底解説。Ollama、LM Studioのインストールから、Llama 3、Mistral、Gemmaの実行方法まで。必要スペック、おすすめモデル、活用テクニックを紹介。

ローカルLLM Ollama LM Studio Llama Mistral オフラインAI

ChatGPTやClaudeは便利だが、インターネット接続が必要で、会話内容が外部に送信される。機密情報を扱う場合や、オフライン環境で使いたい場合には不向きだ。

そこで注目されているのがローカルLLM——自分のPCでAIモデルを動かす方法だ。

2026年現在、ローカル実行の敷居は大幅に下がった。高性能なオープンソースモデルが次々と公開され、Ollamaのような簡単なツールも登場している。

本記事では、ローカルLLMの始め方から、おすすめモデル、実践的な活用方法までを解説する。

結論: 入門にはOllama + Llama 3 8Bがおすすめ。GUIが欲しければLM Studio。RTX 3060以上があれば快適に動作する。


ローカルLLMとは

クラウドAPIとの違い

項目クラウドAPIローカルLLM
インターネット必要不要
プライバシーデータ送信あり完全ローカル
コスト従量課金初期投資のみ
性能最高峰中〜高
セットアップ簡単やや手間

ローカルLLMのメリット

  1. プライバシー保護: 会話内容が外部に送信されない
  2. オフライン利用: インターネット不要
  3. コスト削減: 電気代のみ(APIコスト不要)
  4. カスタマイズ: ファインチューニング可能
  5. レイテンシ: ネットワーク遅延なし

デメリット

  1. 初期投資: GPU購入が必要(8万円〜)
  2. 性能上限: GPT-4oやClaude 3.5には及ばない
  3. セットアップ: 初回設定に手間がかかる
  4. ストレージ: モデルファイルが大きい(4GB〜70GB)

必要スペック

最低スペック(7Bモデル向け)

項目要件
GPURTX 3060 12GB / RTX 4060 8GB
VRAM8GB以上
RAM16GB以上
ストレージSSD 50GB以上
OSWindows 10/11, macOS, Linux

推奨スペック(13B〜70Bモデル向け)

項目要件
GPURTX 4080 16GB / RTX 4090 24GB
VRAM16GB以上
RAM32GB以上
ストレージNVMe SSD 200GB以上

Apple Silicon Mac

M1/M2/M3 MacはUnified Memoryを活用でき、意外と快適に動作する。

チップ動作するモデル
M1/M2 (8GB)7Bモデル(やや遅い)
M1/M2 Pro (16GB)13Bモデル
M2/M3 Max (32GB)70Bモデル(量子化版)
M2/M3 Ultra (64GB+)70Bフル精度

ツール比較

主要ツール一覧

ツール特徴難易度
OllamaCLI中心、最も簡単★☆☆
LM StudioGUI、初心者向け★☆☆
llama.cpp軽量、上級者向け★★★
vLLM高速推論、本番向け★★★
text-generation-webui多機能、カスタマイズ性高★★☆

Ollamaで始めるローカルLLM

Ollamaは、最も簡単にローカルLLMを始められるツール。コマンド1つでモデルのダウンロードから実行まで完了する。

インストール

macOS / Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: 公式サイトからインストーラーをダウンロード。

基本的な使い方

# Llama 3 8Bをダウンロード&実行
ollama run llama3

# 対話開始
>>> こんにちは、自己紹介してください

# 終了
>>> /bye

人気モデル

# Llama 3シリーズ(Meta)
ollama run llama3        # 8B、バランス型
ollama run llama3:70b    # 70B、高品質

# Mistral(欧州発、高速)
ollama run mistral       # 7B
ollama run mixtral       # 8x7B MoE

# Gemma(Google)
ollama run gemma2        # 9B/27B

# Phi-3(Microsoft、軽量高性能)
ollama run phi3          # 3.8B

# CodeLlama(コード特化)
ollama run codellama     # 7B/13B/34B

# 日本語特化
ollama run elyza:jp      # 日本語Llama

API利用

OllamaはOpenAI互換のAPIを提供。既存のアプリと連携可能。

# APIサーバー起動(デフォルトで自動起動)
ollama serve

# curlでアクセス
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "日本の首都は?",
  "stream": false
}'

Pythonから利用

import ollama

response = ollama.chat(
    model='llama3',
    messages=[
        {'role': 'user', 'content': 'Pythonで素数を判定する関数を書いて'}
    ]
)
print(response['message']['content'])

LM Studioで始めるローカルLLM

LM Studioは、GUIで操作できる初心者向けツール。モデルの検索・ダウンロード・実行がすべてGUIで完結する。

インストール

公式サイトからダウンロード。Windows/macOS/Linux対応。

基本的な使い方

  1. モデル検索: 左サイドバーの「Discover」でモデルを検索
  2. ダウンロード: 好みのモデルの「Download」ボタンをクリック
  3. 実行: 「Chat」タブでモデルを選択し、対話開始

おすすめモデル(LM Studio用)

モデルサイズ特徴
TheBloke/Llama-3-8B-GGUF4-8GB汎用、バランス型
TheBloke/Mistral-7B-GGUF4-7GB高速、コード得意
ELYZA-japanese-Llama-2-7b-GGUF4GB日本語特化

ローカルサーバー機能

LM Studioは、OpenAI互換のローカルサーバーを立てられる。

  1. 「Local Server」タブを開く
  2. モデルを選択
  3. 「Start Server」をクリック
  4. http://localhost:1234/v1 でアクセス可能

モデルの選び方

パラメータ数の目安

サイズVRAM目安用途
3B〜7B6-8GB軽量タスク、チャット
8B〜13B10-16GB汎用、コード生成
30B〜34B24GB+高品質な応答
70B48GB+最高品質

量子化について

モデルを圧縮してVRAM使用量を削減する技術。

量子化サイズ削減品質
F16(フル精度)0%100%
Q850%99%
Q565%95%
Q475%90%
Q285%80%

おすすめはQ4〜Q5。品質を大きく落とさずにVRAMを節約できる。

用途別おすすめモデル

用途おすすめモデル
日常会話Llama 3 8B
コード生成CodeLlama 13B / DeepSeek Coder
日本語特化ELYZA-japanese-Llama-2
軽量・高速Phi-3 / Gemma 2
最高品質Llama 3 70B / Mixtral 8x22B

活用テクニック

1. システムプロンプトの設定

# Ollamaでシステムプロンプト指定
ollama run llama3 --system "あなたは優秀なPythonプログラマーです"

2. RAG(検索拡張生成)

ローカルLLMと組み合わせて、自社ドキュメントを検索・回答するシステムを構築。

# LangChain + Ollamaの例
from langchain_community.llms import Ollama
from langchain_community.vectorstores import Chroma

llm = Ollama(model="llama3")
# ドキュメントをベクトル化して検索...

3. Continue(VSCode拡張)

VSCodeからローカルLLMを使ってコーディング支援。

  1. Continue拡張をインストール
  2. 設定でOllamaを指定
  3. Ctrl+Lでコード補完・質問

4. Open WebUI

ブラウザベースのChatGPT風インターフェース。

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

トラブルシューティング

VRAMが足りない

# 量子化版を使用
ollama run llama3:8b-q4_0

# または小さいモデルに変更
ollama run phi3

生成が遅い

  1. 量子化版を使用(Q4推奨)
  2. コンテキスト長を短くする
  3. GPU温度を確認(サーマルスロットリング)

日本語の精度が低い

  1. 日本語特化モデルを使用(ELYZA、Japanese-Llama等)
  2. プロンプトを英語で書いて、回答のみ日本語指定
You are a helpful assistant. Please respond in Japanese.
User: Explain quantum computing.

まとめ

ローカルLLMは、2026年現在で十分実用レベルに達している。

こんな人におすすめ
初めて試すOllama + Llama 3 8B
GUIで使いたいLM Studio
日本語重視ELYZA-japanese-Llama
コード生成CodeLlama / DeepSeek Coder
最高品質Llama 3 70B(要RTX 4090)

始め方:

  1. Ollamaをインストール
  2. ollama run llama3 で即座に試す
  3. 用途に合わせてモデルを変更

クラウドAPIに月額$20払う前に、まずはローカルLLMを試してみてはいかがだろうか。


関連リンク

ツール

モデル

関連記事