为什么数据格式那么多，大模型却独爱 Markdown？背后的原理其实很简单

显示全部楼层

“markdown之所以成为大模型的首选格式，就在于其简单的格式。”

在之前介绍RAG的文章中，不止一次的提到过在知识库的建设中，使用markdown作为主要的存储格式；原因就在于一个现象，明明数据格式有那么多，为什么大模型选择了markdown格式？

以我们常见的数据格式为例，有普通文本，xml，json，html，markdown等；但如果我们仔细观察就会发现，除了一些对数据格式要求比较高的场景之外，在大模型应用中的主要格式就是markdown?

为什么会产生这种情况呢？

不同格式的数据和大模型

文档可以说是我们日常工作中接触到的最多的东西了，而常见的文档格式又多种多样；在日常办公中的word，pdf，ppt等，开发中常用的markdown(技术文档)，html，xml，json等格式的数据。

但是，在大模型中我们最常见的输出格式确实markdown，这是为什么呢？

我们通常使用Markdown格式来展示大模型相关的技术文档和回答，原因包括：

然而，大模型在处理数据时，内部可能使用JSON等结构化格式。但在与用户交互时，Markdown提供了一种更友好的方式。

举例来说，在技术文档中，我们常用Markdown来编写README，而模型在输出代码、表格、列表时，Markdown也能很好地呈现。

但是，这并不意味着其他格式不被使用。例如：

所以，选择Markdown主要是为了可读性和通用性，特别是在文档和对话中。

1.可读性与可写性的平衡

Markdown在保持人类可读的同时，机器也能轻松解析，达到了最佳平衡。

大模型的训练数据主要来自：

这些数据源天然使用类 Markdown 格式，模型在训练过程中就学会了这种格式。

大模型本质是概率模型，要让它产出稳定结构，需要“简单、清晰、可提示”的格式。

Markdown 完美满足这一点：

#明确区分层级

**重点内容**

-列表项-

另一个列表项`代码片段`

相比 JSON 的严格结构，Markdown 允许：

大模型是文本模型。Markdown 也是“纯文本”。

再复杂的页面，在 Markdown 下都能降级成：

而不会出现：

越接近文本，越适合大模型。

所以Markdown 是一种**“人类看得懂、机器也看得懂、训练成本又低”**的完美折中格式。