链载Ai

标题: 【科普】大模型应用中一个 Token 占多少汉字?答案超乎想象! [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: 【科普】大模型应用中一个 Token 占多少汉字?答案超乎想象!

先说答案:不同模型可能采用各自的切分方法,因此,一个 Token 所对应的汉字数量也会有所不同。如腾讯1token≈1.8个汉字,通义千问、千帆大模型等1token=1个汉字,对于英文文本来说,1个token通常对应3至4个字母, 不同的模型对相同的输入分词, 分词结果是不一样的。

同样可以说,一个汉字占约0.5个Token。‌

Token 是大模型中最基础、最常见的概念,它既可以是一个完整的单词,也可以是一个单词的一部分,甚至是标点符号或空格。其翻译方式尚无定论,包括“标记”、“词”、“令牌”等多种说法。复旦大学计算机学院的邱锡鹏教授将其翻译为“词元”,我个人认为这种翻译比较恰当。

众所周知,大语言模型的训练语料数量、上下文的限制、生成速度等都以 Token 作为基本单位进行衡量。在训练过程中,Token 的数量直接影响模型的表现和泛化能力;在推理过程中,上下文中的 Token 数量会限制模型的记忆和理解范围;生成速度则通常通过每秒生成的 Token 数量来衡量。这些指标对于评估和优化大语言模型的性能至关重要。

以下是关于 Token 的一些详细信息:

  1. 定义与组成






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5