Token 可以简单理解成:AI 读文字时的“最小计价/处理单位”。 它不完全等于“字”或“词”,而是模型把一句话切成很多小片段来理解。 比如: 我想学习人工智能 可能会被拆成类似: 我 / 想 / 学习 / 人工 / 智能 这些小片段就可以理解为 token。 在 ChatGPT、Claude、文心一言这类大模型里,token 主要有三个作用: 1. 用来“读懂文字” AI 不是直接像人一样读句子,而是先把文字拆成 token,再把 token 转成数字,交给模型计算。 2. 用来计算上下文长度 你跟 AI 聊天时,前面的对话、你发的图片描述、文档内容,都会占用 token。 所以有时候模型会说“上下文太长”,本质就是 token 太多了。 3. 用来计费 很多 AI API 都按 token 收费。 一般分为: 输入 token:你发给 AI 的内容。 输出 token:AI 回复你的内容。 比如你发一段 1000 字的文章让 AI 总结,这是输入 token;AI 给你写了 500 字总结,这是输出 token。 中文里 token 怎么算? 中文通常 1 个汉字大约接近 1 个 token,但不是绝对。 英文则可能几个字母、一个单词、半个单词都可能是 token。 例如: * “你好” 可能是 1~2 个 token * “artificial intelligence” 可能被拆成多个 token * 代码、标点、空格也可能占 token 一句话总结 Token 就是 AI 把文字拆开后用于理解、记忆、生成和计费的小单位。 你可以把它理解成: AI 世界里的“字数单位 + 计算单位 + 收费单位”。 #ai #token #算力 #api #codex