TOON (Token-Oriented Object Notation) 是一种专为大型语言模型 (LLM) 设计的数据表示格式,其核心目的是减少输入/输出数据中的 Token 数量,从而降低成本和提高处理效率。
| 全称 | ||
| 本质 | Token 密度更高 | |
| 目标 |
LLM 的分词器 (Tokenizer) 会将输入文本拆分为 Token。JSON 中大量的引号 (")、逗号 (,)、冒号 (:) 和大括号 ({})等结构性符号,都会被计为单独的 Token,造成浪费。
TOON 通过以下方式精简结构:
以下通过一个包含多个用户档案的列表,对比 JSON 和 TOON 的格式差异:
{
"users":[
{"name":"小明","age":25,"city":"北京"},
{"name":"小红","age":30,"city":"上海"},
{"name":"小刚","age":28,"city":"广州"}
]
}分析:大量的引号、逗号和重复的键名 ("name","age","city") 都会被计入 Token。
users[3]{
name age city
小明 25 北京
小红 30 上海
小刚 28 广州
}分析:
users[3]:直接声明数组名和长度。{...}:表示对象集合的开始。name age city:字段名(Keys)只定义一次。TOON 主要应用于以下需要大量数据输入/输出的 AI 交互场景:
如何使用:
开发者可以使用现有的 TOON 库(如 Python/Java 社区提供的工具)将传统的 JSON 格式数据转换为 TOON 格式,然后将其作为输入提交给 LLM。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |