LLMをプロダクトに組み込む際、API料金は無視できないコスト要因だ。同じタスクでも、モデル選択次第で費用が10倍以上変わることもある。
本記事では、2026年1月時点の主要LLM APIの料金を徹底比較し、用途別の最適な選択肢を解説する。
結論: コスパ最強はGemini 1.5 Flash($0.075/1M入力)。品質重視ならClaude 3.5 SonnetかGPT-4o。大量処理にはバッチAPIの活用が必須。
料金比較一覧表
主要モデル料金(1M tokensあたり)
| プロバイダー | モデル | 入力 | 出力 | コンテキスト |
|---|---|---|---|---|
| OpenAI | GPT-4o | $5.00 | $15.00 | 128K |
| GPT-4o mini | $0.15 | $0.60 | 128K | |
| GPT-4 Turbo | $10.00 | $30.00 | 128K | |
| o1 | $15.00 | $60.00 | 200K | |
| o1-mini | $3.00 | $12.00 | 128K | |
| Anthropic | Claude 3.5 Sonnet | $3.00 | $15.00 | 200K |
| Claude 3 Opus | $15.00 | $75.00 | 200K | |
| Claude 3 Haiku | $0.25 | $1.25 | 200K | |
| Gemini 1.5 Pro | $1.25 | $5.00 | 1M | |
| Gemini 1.5 Flash | $0.075 | $0.30 | 1M | |
| Gemini 1.0 Pro | $0.50 | $1.50 | 32K | |
| Mistral | Mistral Large | $2.00 | $6.00 | 128K |
| Mistral Medium | $2.70 | $8.10 | 32K | |
| Mistral Small | $0.20 | $0.60 | 32K | |
| Codestral | $0.20 | $0.60 | 32K |
※ 2026年1月時点。料金は予告なく変更される可能性があります。
プロバイダー別詳細
OpenAI
特徴: 最も広く使われているAPI。豊富なモデルラインナップ。
| モデル | 強み | 用途 |
|---|---|---|
| GPT-4o | バランス型、マルチモーダル | 汎用、画像理解 |
| GPT-4o mini | 高速・低コスト | 大量処理、チャットボット |
| o1 | 推論特化 | 複雑な問題解決 |
| o1-mini | 推論+コスパ | コーディング、数学 |
バッチAPI: 50%割引(24時間以内に処理)
GPT-4o バッチ: 入力 $2.50 / 出力 $7.50
無料枠: なし(従量課金のみ)
Anthropic
特徴: 安全性重視、コーディングに強い。
| モデル | 強み | 用途 |
|---|---|---|
| Claude 3.5 Sonnet | コード生成最強 | 開発、分析 |
| Claude 3 Opus | 最高品質 | 複雑なタスク |
| Claude 3 Haiku | 超高速 | 分類、要約 |
バッチAPI(Message Batches): 50%割引
Claude 3.5 Sonnet バッチ: 入力 $1.50 / 出力 $7.50
無料枠: なし
Google (Vertex AI / AI Studio)
特徴: 長コンテキスト、Google連携、無料枠あり。
| モデル | 強み | 用途 |
|---|---|---|
| Gemini 1.5 Pro | 1Mコンテキスト | 長文分析 |
| Gemini 1.5 Flash | 超低コスト | 大量処理 |
無料枠(AI Studio):
- Gemini 1.5 Flash: 15 RPM / 1M TPD
- Gemini 1.5 Pro: 2 RPM / 50K TPD
コンテキストキャッシュ: 長文の繰り返し利用で25%割引
Mistral
特徴: 欧州発、オープンソース寄り、コスパ良好。
| モデル | 強み | 用途 |
|---|---|---|
| Mistral Large | GPT-4o相当 | 汎用 |
| Mistral Small | 高速・低コスト | 分類、抽出 |
| Codestral | コード特化 | コード生成 |
無料枠: 月間$5相当(新規登録時)
コスト計算シミュレーション
ケース1: チャットボット(月間10万会話)
想定: 1会話あたり入力500トークン、出力1000トークン
| モデル | 月間コスト |
|---|---|
| GPT-4o | $200 |
| GPT-4o mini | $7.5 |
| Claude 3.5 Sonnet | $165 |
| Claude 3 Haiku | $13.75 |
| Gemini 1.5 Flash | $3.75 |
おすすめ: Gemini 1.5 FlashまたはGPT-4o mini
ケース2: 文書要約(月間1000文書)
想定: 1文書あたり入力10,000トークン、出力500トークン
| モデル | 月間コスト |
|---|---|
| GPT-4o | $57.50 |
| Claude 3.5 Sonnet | $37.50 |
| Gemini 1.5 Pro | $15.00 |
| Gemini 1.5 Flash | $0.90 |
おすすめ: Gemini 1.5 Flash(品質重視ならPro)
ケース3: コード生成(月間5万リクエスト)
想定: 1リクエストあたり入力2000トークン、出力3000トークン
| モデル | 月間コスト |
|---|---|
| GPT-4o | $275 |
| Claude 3.5 Sonnet | $255 |
| o1-mini | $210 |
| Codestral | $11 |
おすすめ: 品質重視→Claude 3.5 Sonnet、コスパ重視→Codestral
コスト最適化テクニック
1. バッチAPIを活用
リアルタイム性が不要なら、バッチAPIで50%削減。
# OpenAI バッチAPI例
from openai import OpenAI
client = OpenAI()
batch = client.batches.create(
input_file_id="file-xxx",
endpoint="/v1/chat/completions",
completion_window="24h"
)
2. プロンプトキャッシュ
同じシステムプロンプトを繰り返し使う場合、キャッシュで25-50%削減。
| プロバイダー | 機能名 | 割引率 |
|---|---|---|
| Anthropic | Prompt Caching | 90%(キャッシュヒット時) |
| Context Caching | 25% | |
| OpenAI | 自動キャッシュ | 50%(128K以上) |
3. モデルの使い分け
簡単なタスク → 軽量モデル(Haiku, Flash, mini)
複雑なタスク → 高性能モデル(Sonnet, 4o, Pro)
ルーターパターン:
- まず軽量モデルで処理
- 信頼度が低い場合のみ高性能モデルにフォールバック
4. トークン数の最適化
- 不要な空白・改行を削除
- 出力フォーマットを指定(JSONなど)
- max_tokensを適切に設定
# 出力トークンを制限
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[...],
max_tokens=500 # 必要最小限に
)
用途別おすすめモデル
予算重視(月間$50以下)
| 用途 | おすすめ |
|---|---|
| チャットボット | Gemini 1.5 Flash |
| 文書処理 | Gemini 1.5 Flash |
| コード生成 | Codestral |
| 分類・抽出 | Claude 3 Haiku |
品質重視
| 用途 | おすすめ |
|---|---|
| 複雑な推論 | o1 / Claude 3 Opus |
| コード生成 | Claude 3.5 Sonnet |
| 長文分析 | Gemini 1.5 Pro |
| マルチモーダル | GPT-4o |
バランス型
| 用途 | おすすめ |
|---|---|
| 汎用 | GPT-4o / Claude 3.5 Sonnet |
| コスパ+品質 | GPT-4o mini / Mistral Small |
料金改定の傾向
2024年から2026年にかけての傾向:
- 継続的な値下げ: GPT-4は発売時から約80%値下げ
- 軽量モデルの台頭: mini/Flash/Haikuが実用レベルに
- バッチAPI普及: 各社が50%割引のバッチ処理を提供
- キャッシュ機能拡充: 繰り返し利用の割引が標準化
予測: 2026年後半にはさらに20-30%の値下げが見込まれる。
まとめ
2026年のLLM API選びのポイント:
| 優先事項 | おすすめ |
|---|---|
| 最安 | Gemini 1.5 Flash($0.075/1M入力) |
| コスパ | GPT-4o mini / Claude 3 Haiku |
| 品質 | Claude 3.5 Sonnet / GPT-4o |
| 長文 | Gemini 1.5 Pro(1Mコンテキスト) |
| 推論 | o1 / o1-mini |
コスト削減の3原則:
- バッチAPIで50%削減
- プロンプトキャッシュで25-90%削減
- 軽量モデル→高性能モデルのルーター構成
料金は頻繁に変更されるため、各社の公式ドキュメントで最新情報を確認することをおすすめする。
公式料金ページ
関連記事
- Claude vs ChatGPT vs Gemini比較 - モデルの機能比較
- LLMの基礎知識2026 - LLMの仕組みを理解する
- プロンプトエンジニアリング入門 - 効率的なプロンプト設計