LM Studio
Max Tokens設定ガイド
Max Tokensの役割
Max Tokensは、モデルが1回の応答で生成できる最大トークン数を制限する設定です。
- 例:
- Max Tokens: 4096 → 約1300トークン(約3000文字)に減らした
結果: メモリ使用量が減ってクラッシュしなくなった
なぜMax Tokensを減らすと解決するのか
メモリ使用量の関係
総メモリ使用量 = モデル本体のサイズ + Context Length(会話履歴) + Max Tokens(生成バッファ)
Max Tokensを減らす
→ 生成時のメモリバッファが小さくなる
→ クラッシュしにくくなる
適切なMax Tokens設定
用途別の推奨値
| 用途 | 推奨Max Tokens |
|---|---|
| 短い回答(チャット、Q&A) | 500-1000 |
| 通常の会話 | 1000-2000 |
| 長文生成(記事、コード) | 2000-4096 |
| 超長文(小説、詳細レポート) | 4096-8192 |
他の重要な設定との関係
Context Length(コンテキスト長)
Context Length: 会話履歴を保持できる最大トークン数 Max Tokens: 1回の応答で生成できる最大トークン数 Context Length ≧ Max Tokens である必要がある
推奨バランス
| 設定パターン | Context Length | Max Tokens |
|---|---|---|
| 軽量設定 | 2048 | 512-1024 |
| 標準設定 | 4096 | 1024-2048 |
| ヘビー設定 | 8192 | 2048-4096 |
メモリ節約のコツ
1. Max Tokensは必要最小限に
- ✅ 質問応答メイン → 1000で十分
- ❌ とりあえず最大 → メモリの無駄
2. Context Lengthも調整
- 短い会話なら2048でOK
- 長い会話が必要なら4096以上
3. 定期的に会話をリセット
- 長い会話 → メモリ圧迫
- 新しいチャット開始 → メモリ解放
トラブルシューティングの優先順位
今後同じようなエラーが出たら:
- Max Tokensを減らす
- Context Lengthを減らす
- GPU Layersを減らす
- より小さいモデルに変更
- 会話履歴をクリア
トークン数の目安
日本語の場合(おおよそ)
- 1トークン ≈ 1-2文字
- 100トークン ≈ 70-150文字
- 1000トークン ≈ 700-1500文字
英語の場合
- 1トークン ≈ 4文字(0.75単語)
- 1000トークン ≈ 750単語
- 記事情報
- 作成者:webmaster
- カテゴリー:AI
- タグ:LM Studio,Max Tokens,
- 最終更新日 :