DocReward：让智能体“写得更专业”的文档奖励模型 - 链载Ai

编者按：当大模型已能“写对”内容，如何让文档也“好看、易读”成为办公智能体转型的新焦点。微软亚洲研究院携手香港中文大学、中国科学院大学提出了一个专注于评估文档“结构与样式”专业性的奖励模型 DocReward。该模型为智能体生成的文档提供了清晰、可量化的优化信号，使其不仅在内容层面准确可信，更在形式呈现上清晰有序、专业规范，为下一代智能办公智能体的落地奠定了关键基础。

近年来，随着智能体化转型（Agentic Transformation）的快速发展，AI 自动化能力持续突破，已经覆盖文档生成、代码生成、图像生成、视觉理解、数学推理等多种复杂任务。这一趋势凸显了传统软件智能体化转型的重要性，以 Microsoft Office 为代表的核心生产力平台，若升级为具备自主推理与操作能力的下一代智能体，则将实现自然语言与办公自动化的无缝衔接，显著提升工作效率和专业水平。

为推动这一转型，微软亚洲研究院联合香港中文大学、中国科学院大学提出了专注于文档结构与样式专业度的奖励模型 DocReward。DocReward 可以评估文档的视觉层次、排版规范和整体可读性，为自动化文档创作提供核心支撑。通过优化结构与样式，DocReward 能够帮助由智能体生成的文档在形式上达到专业标准，确保内容呈现清晰、有序、易读。

在内容生成方面，Deep Research 通过智能体化的文献调研，可高效整合信息并输出专业报告。结合 DocReward，智能体不仅能够产出内容可靠、信息丰富的文档，还能保证文档结构清晰、风格专业，实现从信息调研到高质量文档呈现的完整闭环，为传统办公软件智能体化转型奠定坚实基础。

图1：DocReward 能够根据文档的结构和样式自动评估其专业性，从而辅助现有的智能体工作流，生成更加专业的文档。

DocReward: A Document Reward Model for Structuring and Stylizing

论文链接：

https://arxiv.org/abs/2510.11391

如今，智能体化的专业文档生成已经成为一个备受关注的方向。然而，目前的研究大多集中在“文本内容质量”的提升上，对“结构与样式”这些视觉元素的重要性关注不足。事实上，一份真正专业的文档不仅要内容扎实，更要结构清晰、样式恰当。清晰的结构能让读者顺畅地理解信息，而恰当的样式则有助于提升整体的阅读体验与专业感。

这种忽视的根源在于：现有的奖励模型尚无法有效指导智能体生成在视觉上更专业、结构与样式更合理的文档。但未来的研究将致力于让 AI 不仅能写出“对”的内容，更能写出“易读、美观”的作品。

对此，研究团队提出了奖励模型 DocReward，专门用于评估文档结构和样式的专业性，从而辅助现有的智能体工作流，生成更加专业的文档。

假设有一组文档 {D_i}，每份文档的文本内容和对应的渲染图像分别用 D_(text,i) 和 D_(img,i) 表示。文档奖励模型会对这些文档进行评分，使得评分能够反映文档在结构和样式上的专业程度。

具体来说，对于内容相同的一组文档，研究员们希望奖励模型（用 R_θ 表示）预测的评分顺序能够尽可能与文档在结构和样式上的真实优劣顺序（用 π* 表示）保持一致。通过这种方法，奖励模型能够区分同一文本内容下文档的优劣，从而提升结构和样式评估的准确性。

为了训练 DocReward，研究团队构造了 DocPair 数据集。该数据集包含11.7万对文档，涵盖32个领域和267种文档类型。模型通过偏好学习优化，能够准确评估文档在结构和样式的专业度。

首先，研究团队收集了一批人类撰写的 Microsoft Word 文件，涵盖正式的机构文档和日常办公文档。数据来源包括：

为了确保数据适用于奖励模型的训练，研究员们对文档进行了预处理和筛选：将所有文档统一转换为 DOCX 格式，剔除异常或格式错误的文档，并使用 GPT-5 对文档结构和样式进行自动评分（分数范围0-10），保留评分高于8的文档。

最终，处理过的数据覆盖32个领域（如政府、教育、非营利机构、医疗、科学、法律、商业、学术与技术等）和267种文档类型（如职位说明、政府表格、政策文件、会议纪要、新闻稿、课程大纲等），形成了后续构建文档对的基础。

图3与图4分别展示了 Top 10 的领域分布与 Top 30 的文档类型分布，体现出了 DocPair 数据集的广度与多样性。

为了获得文本内容相同但结构和样式不同的文档，研究团队设计了两类文档生成智能体：

在每个文档组中，文档都具有相同的文本内容。为此，研究团队构造了以下两种比较对：

最终构建出的 DocPair 数据集包含11.7万对文档，为训练 DocReward 提供了坚实基础。

对于文档的多页视觉渲染图像输入 vision encoder，研究员们在语言模型上添加了一个回归头，在输入图像序列末尾添加了一个特殊的 <regression> token，该 token 对应的语言模型隐藏状态，经过回归头来预测文档的评分。

训练采用 Bradley-Terry 损失（BT）用于从成对的偏好中进行学习。具体来说，DocReward 会分别输入每份文档的渲染页并输出评分，损失函数的目标是让模型对获胜文档的评分高于失败文档的评分，鼓励模型正确区分成对文档的结构和样式优劣。

研究团队进行了一系列的实验，以测试 DocReward 在评估文档结构与样式专业性方面的有效性。

研究员们从前述整理的高质量文档中随机采样部分样本，构建了评估数据集。该评测集同时包含人类撰写的真实文档和由多种大语言模型生成的合成文档，以保证结构和样式的多样性。

对于每组内容相同但结构和样式不同的文档，人工专家根据其结构与样式的专业程度进行了排序。随后，研究团队将这些排序结果转换为473对文档对比样本，并在每对样本中标注出哪一份更优。

如表1所示，在上述评估数据集上，DocReward 模型取得了显著提升，超越了 GPT-4o、Claude Sonnet 4 和 GPT-5 等强基线。

其中，DocReward-7B 在整体人工偏好准确率上达到了89.22%，比表现最好的闭源基线 GPT-5（69.77%）高出19.45个百分点。即便在更具挑战性的“合成文档 vs 合成文档”场景下，DocReward-7B 依然保持了78.22%的准确率，高于 GPT-5 的64.85%。

这些结果说明，DocReward 能够有效捕捉文档结构与样式的质量信号，而这些往往是现有大语言模型所忽视的。

为了验证 DocReward 在实际文档生成任务中的价值，研究员们进一步开展了基于奖励模型的文档生成实验。在该实验中，文档生成智能体根据相同的文本内容生成了多份候选文档，随后由不同的奖励模型从中挑选出结构与样式最优的一份作为最终输出。

研究员们首先对比了三种奖励策略：随机选择、GPT-5 奖励模型以及 DocReward 奖励模型。接着，人工标注者根据文档的结构与样式对三种奖励策略生成的结果进行评估，并统计不同奖励模型之间的胜/负/平局比例。

实验结果如图5所示，随机奖励表现最差，仅在24.6%的对比中获胜；而 GPT-5 的胜率提升至37.7%；相比之下，DocReward 的胜率达60.8%，失败率仅为16.9%，显著优于两种基线方法。

这一结果表明，DocReward 所提供的奖励信号能更准确地反映人类在文档结构与样式上的偏好。将 DocReward 集成到文档生成流程中，即使不改变原有生成模型本身，也能显著提升最终输出文档的专业性，与人类偏好保持一致。

为了更直观地展示 DocReward 对文档结构与样式专业性的感知能力，研究员们进一步进行了样例分析。本实验选取了一组内容相同但在结构和样式上存在差异的文档，如图6所示。

样例 (a)：文档的空白区域分配不合理：姓氏栏（Last Name）间距过小，而名字栏（First Name）间距过大，导致整体版面不平衡。部分关键信息项（如 Faculty/Department、Country、Country Code）未对齐，呈现出杂乱无章的排版效果。DocReward 对该文档的评分仅为1.21，反映其在结构与样式方面的较差表现。

样例 (b)：采用了类似表格的布局，整体比 (a) 更规整，但一级标题 “The teaching staff member” 字体过小，与正文缺乏明显区分，削弱了视觉层级感。同时，输入栏缺少边框，使信息定位不够直观，最终获得2.11的中等评分。

样例 (c)：展现了清晰、规范的文档结构——标题字号明显大于正文，留白合理，排版对齐规范，可读性强。该文档获得了最高分5.34。

从这些对比样例可以看出，DocReward 能够有效捕捉文档在结构与样式层面的专业性差异，其评分结果与人类的视觉判断一致。这进一步验证了 DocReward 在结构化、专业化文档评估中的可靠性与实际应用价值。

通过文档生成智能体的实验结果与样例分析可以发现，DocReward 能有效引导智能体生成更符合人类偏好的专业化文档，实现从信息调研到高质量文档展示的完整闭环。这一成果验证了 DocReward 在文档生成中的实际效用，也为 Microsoft Office 等核心办公软件的智能体化转型提供了有力支持。