トークン
Token
概要(サマリー)
トークンとは、AIやプログラムが文章を処理するときに使う、文字や単語を細かく区切った情報の単位のことである。
厳密には文字数や単語数と完全に同じではないが、初心者向けには「AIにとっての情報量の単位」と考えるとわかりやすい。AIに長い文章やコードを読ませたり、大量の背景情報を一度に渡したりすると、このトークンが多く消費される。トークン上限に達すると、AIが一度に扱える量を超えてしまい、入力や出力が制限されることがある。
詳細解説
トークンは「AIが文章を数える単位」である
人間は文章を読むとき、文字や単語のかたまりとして自然に理解している。
多くのAIは、文章を細かい単位に分けて処理している。
その細かい単位がトークンである。
たとえば、1文字が1トークンになるとは限らない。
短い単語が1トークンになることもあれば、長い単語が複数のトークンに分かれることもある。
日本語でも、1文字ずつではなく、文字の並びやパターンごとに分かれることがある。
そのため、トークンは「文字数」と完全には一致しない。
ただし初心者向けには、まず「AIが文章量を数えるための単位」と理解すれば十分である。
なぜトークンが重要なのか
AIは、無限に長い文章を一度に読めるわけではない。
1回のやり取りで扱える情報量には上限があり、その目安としてトークン数が使われる。
この上限には、次のようなものが含まれることが多い。
- ユーザーが入力した文章
- それまでの会話の文脈
- システム側の指示
- AIがこれから出力する文章
つまり、今入力した文だけでなく、会話の流れ全体もトークンを消費していることがある。
そのため、長い会話や大量のコードを扱っていると、気づかないうちに上限へ近づくことがある。
文字数とどう違うのか
トークンは、文字数や単語数と完全には一致しない。
ここが少しややこしい。
たとえば、英語では短い単語が1トークンになることも多いが、長い単語は複数に分かれることがある。
日本語でも、漢字・ひらがな・記号の組み合わせによって分かれ方が変わる。
そのため、同じ100文字でも、内容によって必要なトークン数が変わることがある。
コード、英数字、記号が多い文章では、体感よりトークンが増えることもある。
つまり、トークンは「見た目の文字量」よりも、「AI内部でどう分割されるか」に近い単位である。
トークン上限に達するとどうなるか
「トークン上限に達した」というのは、AIが一度に扱える量を超えた状態である。
イメージとしては、AIの頭の中の作業机がいっぱいになったようなものに近い。
このとき、次のようなことが起きることがある。
- 長すぎる入力を受け付けられない
- 出力が途中で切れる
- 古い文脈が入りきらず、前半の情報が反映されにくくなる
- APIでエラーになる
- ファイルやコード全体を一度に処理できない
つまりトークン上限は、AIの性能そのものというより、「1回の会話でどれだけの情報を同時に扱えるか」に関わる制約である。
どんなものがトークンを多く使うのか
次のようなものは、特にトークンを消費しやすい。
長いコード
1ファイルまるごとのコード、複数ファイルの貼り付け、大きなログなどはかなりトークンを使う。
長い会話履歴
会話が続くほど、前のやり取りも文脈として含まれ、トークン消費が増えることがある。
細かい条件の多いプロンプト
背景説明、制約、例、補足条件などを大量に書くと、そのぶん入力トークンが増える。
長い出力
「詳しく」「全部」「完全版で」と依頼すると、返答側でも多くのトークンを使う。
AIサービスのプランやモデルとの関係
トークン上限は、利用するAIサービスやモデル、プランによって変わることがある。
モデルやサービスの仕様、プランによっては、より長い文脈を扱える場合がある。
ただし、ここで大切なのは「上位プランなら無制限」という意味ではないことである。
上限が高くなっても、非常に長いコードベースや大量の資料を一気に投げれば、やはり工夫は必要になる。
つまりトークンの理解は、無料・有料に関係なく、AIをうまく使ううえで役立つ基本知識である。
Prompt や Context との関係
トークンは、Prompt や Context とかなり深く関係している。
- Prompt
今回AIへ渡している指示文 - Context
会話の流れや背景情報 - Token
それらをAIが処理するときの情報量の単位
たとえば、プロンプトが長すぎたり、コンテキストを抱え込みすぎたりすると、トークン消費が増える。
その結果、AIの出力余地が減ったり、会話が重くなったりすることがある。
このため、AI活用では「必要な情報は入れるが、不要な情報は削る」という調整も重要になる。
APIでよく出てくる理由
AIをAPI経由で使うときは、トークンという言葉が特によく出てくる。
なぜなら、料金計算や使用量管理、入力制限、出力制限などがトークン単位で扱われることが多いからである。
たとえばAPIでは、次のようなことが話題になりやすい。
- 入力トークン数
- 出力トークン数
- 最大トークン数
- 料金の目安
- モデルごとの上限差
そのため、AIを実務や自動化で扱うなら、トークンの感覚を持っておくとかなり役立つ。
AI時代にどう意識するとよいか
トークンを意識するといっても、毎回細かく数える必要はない。
初心者のうちは、次の感覚を持っておくだけで十分である。
- 長すぎる文章は負担になる
- 長いコードは分割したほうがよい
- 不要な背景説明は削ったほうがよい
- 長い会話は途中で整理したほうがよい
たとえば、大きなコードを見せたいときは一気に全部貼るのではなく、
- 問題のあるファイルだけ送る
- エラー箇所周辺だけ送る
- 目的を最初に絞る
- 一度要約してから次に進む
といった工夫が有効である。
Access Token など別の意味の token とは違う
「トークン」という言葉はAI以外でも使われるため、混同しやすい。
たとえば、ログイン認証やAPI認証で出てくる Access Token はまったく別の意味である。
また、APIキーとも近い文脈で出てくることがあるが、AIのtokenとは別物である。
- AIの token
情報量を数える単位 - Access Token
認証やアクセス許可のための鍵のような情報 - API Key
APIを使う人やアプリを識別するための秘密情報
同じ token という単語でも、文脈によって意味が大きく違う。
AI用語としてのトークンは、「文章処理の単位」の話である。
よくある勘違い
トークン = 文字数そのもの?
違う。
近い感覚ではあるが、実際にはAI内部での分割単位なので、文字数とは完全には一致しない。
トークン上限 = AIの賢さそのもの?
そうではない。
主に、一度にどれだけの情報を扱えるかという容量に関わる話である。
有料プランならトークンを気にしなくてよい?
そこまでではない。
上限が高くなることはあっても、長すぎる入力や長大な会話ではやはり工夫が必要になる。
長いプロンプトのほうが必ずよい?
必ずしもそうではない。
必要な情報は重要だが、不要な情報まで増やすとトークンを無駄に消費してしまう。
AI用語のトークンと Access Token は同じ?
同じではない。
AI用語では文章処理の単位、認証の文脈ではアクセス許可のための情報を指す。
まとめ
- トークンは、AIやプログラムが文章を処理するときに使う、文字や単語を細かく区切った情報の単位のこと。
- 関連する用語や実際の作業場面と一緒に理解すると、使いどころを判断しやすい。
- AIコーディングでは、用語の意味を理解しているほど、AIの説明や生成コードを確認しやすくなる。
- 迷ったときは、エラー内容、目的、前提条件を整理してAIに聞くとよい。
より詳しくAIに聞いてみよう
- トークンとは何かを、中学生でもわかるように具体例つきで説明してください。
- トークンと文字数の違いを、初心者向けにやさしく説明してください。
- AIでトークン上限に達すると何が起きるのか、具体例つきで教えてください。
- Prompt と Context と Token の関係を、初心者向けに整理してください。
- 長いコードや文章をAIに渡すとき、トークンを節約するコツを教えてください。