今天是2024年9月11日,星期三,北京,天气阴
我们来看两个工作,一个是PdfTable工具包:深度学习在表格提取中的统一应用,另一个是大模型偏好学习综述。
这两个方案都很有趣,对于理解一些技术细节,供大家一起参考并思考。
一、PdfTable工具包用于表格提取 《PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction》(https://arxiv.org/pdf/2409.05125,代码:https://github.com/CycloneBoy/pdf_table,注注意,代码仓库还是空的)介绍了一个名为PdfTable的统一工具包,用于从PDF文件和图像中提取表格信息。
该工具包集成了多个开源模型,能够适应不同的应用场景,如处理有线表格、无线表格、数字PDF和图像PDF等。
1、 PdfTable库的设计和实现
PdfTable 由四个主要模块组成,包括布局分析、表格结构识别、文本检测与识别以及应用模块。
处理流程包括输入预处理、布局分析、表格结构识别、文本提取和应用。
2、表格解析流水线(PdfTable Parse Pipeline)
输入预处理(Input Preprocessing) :
如果是 PDF 文件,需要下载并转换为图像格式。数字 PDF 使用 Ghostscript 转换,图像 PDF 则直接提取。 使用对象检测模型来识别和分类图像中的不同元素。如 PP-PicoDet、DocxLayout 和 LayoutParser,将图像分割成不同的区域。 表格结构识别(Table Structure Recognition) :
有线表格:使用算法直接识别表格边框,然后恢复表格结构。使用 LineCell 算法或深度学习算法如 CycleCenterNet 和 LORE 识别表格边框。 无线表格:使用图像到序列生成技术,直接生成标记和文本边框来表示表格结构。使用图像到序列生成技术,如 SLANet、LGPMA、TableMaster 和 MTL-TabNet。 文本检测与识别(Text Detection and Recognition) :
对于数字 PDF,直接从 PDF 提取文本坐标和内容。如使用 pdfminer.six 直接提取文本。 对于扫描的 PDF 或图像,使用 OCR 工具提取文本。如使用 OCR 工具如 PaddleOCR、EasyOCR、TesseractOCR 和 duguangOCR 提取文本。 表格内容提取(Table Content Extraction) :
将表格区域中的文本与表格结构匹配,生成表格的 HTML 表示。 其他文本通过段落合并模块(Paragraph Merging Module)合并成段落。 将识别的表格、文本段落和图片统一表示为 PdfCell 结构,并输出为不同的文件格式,如 HTML、DOCX 或 Excel。 二、大模型偏好学习综述 关于大模型偏好学习综述,《Towards a Unified View of Preference Learning for Large Language Models: A Survey》:https://arxiv.org/html/2409.02795v3,提供了对大型语言模型(LLM)偏好学习领域的全面概述,该供工作提出了一个统一的框架,将偏好学习策略分解为四个组成部分:模型、数据、反馈和算法。这个框架有助于深入理解现有的对齐算法,并揭示了不同策略之间的联系。
其中,在数据方面,讨论了如何收集偏好数据,包括在线(on-policy)和离线(off-policy)数据收集方法,以及这些数据如何从人类或LLM生成。
在算法方面,介绍了多种算法,包括点式(point-wise)、成对(pair-wise)、列表式(list-wise)方法,以及无需训练的对齐方法。这些算法通过不同的方式利用数据和反馈来优化LLM。
在评估方面,讨论了如何评估LLM的偏好学习,包括基于规则的评估和基于LLM的评估方法,以及这些方法的局限性。
可以重点看看一下几个图:
1、大模型偏好学习的组成
Figure 1 提供了一个关于大型语言模型(LLM)偏好学习统一视角的图示性说明。
偏好学习的目标 :图的中心是将一个现有的 LLM(πθ)通过偏好学习的过程,转化为一个与人类偏好更加一致的模型(πθ')。数据(Data) :偏好学习过程开始于数据的收集。这些数据通常包括输入(input)和对应的输出(response),这些输出是模型基于输入生成的。反馈(Feedback) :基于模型的输出,会得到环境(例如人类评估者或另一个模型)提供的反馈。这个反馈可以是直接的奖励信号,也可以是基于规则或模型的评分。偏好优化(Preference Optimization) :利用收集到的数据和反馈,通过特定的算法对模型进行优化。这个过程可能涉及到训练新的模型参数,或者在模型生成的输出上应用某种优化技术。评估(Evaluation) :优化后的模型需要通过评估来确定其性能。评估可以通过规则基(Rule-based)的方法,例如检查模型输出的正确性,或者使用另一个LLM作为评估者(LLM-based Evaluation)。算法分类 :图示中还对偏好学习的算法进行了分类,包括点式(Point-wise)、成对(Pair-wise)、列表式(List-wise)方法,以及无需训练的对齐方法(Training-Free Alignment)。2、大模型(LLM)偏好学习分类框架
Figure 2 提供了大型语言模型(LLM)偏好学习的一个分类框架,展示了不同组件和方法如何组合在一起。
偏好学习分类 :这张图将偏好学习策略分为四个主要部分:偏好数据(Preference Data)、反馈(Feedback)、算法(Algorithms)和评估(Evaluation)。在线策略(On-policy) :直接从模型(πθ)采样,获取数据。离线策略(Off-policy) :使用人类或其他模型生成的数据,这些数据不是由当前模型实时生成的。直接反馈(Direct Feedback) :直接从人类评估者或其他系统获得的反馈。基于模型的反馈(Model-based Feedback) :包括奖励模型(Reward Model)、成对评分模型(Pair-wise Scoring Model)和LLM作为评判者(LLM-as-a-Judge)。点式方法(Point-wise Method) :如 RFT、RAFT、Star、PPO 等,这些方法基于单个数据点进行优化。成对对比(Pair-wise Contrast) :如 DPO、IPO、Sr-DPO 等,这些方法通过比较成对的样本来优化模型。列表式对比(List-wise Contrast) :如 RRHF、PRO、CycleAlign 等,这些方法考虑整个数据列表来优化模型。无需训练的对齐(Training-Free Alignment) :如输入优化(Input Optimization)和输出优化(Output Optimization),这些方法在不直接训练模型的情况下对齐模型输出。基于规则的评估(Rule-based Evaluation) :使用预定义的规则或标准来评估模型输出。基于LLM的评估(LLM-based Evaluation) :使用另一个LLM来评估模型输出的质量。3、偏好学习的示例
4、点式损失的偏好学习策略示例
5、偏好学习概览
要使大型语言模型(LLM)πθ与人类偏好对齐,首先需要准备偏好数据。与人类偏好对齐的环境会向偏好数据提供反馈。需要注意的是,这些反馈可以是人类标注的标签或偏好,或者是奖励模型输出的标量值。通过将模型、数据和反馈输入到特定算法中,我们获得了一个与人类偏好对齐的LLM πθ'。
6、偏好学习中模型获得的奖励说明
对于一个数据样本 (?, ?ˆ),其中 ?ˆ 是未标记的候选输出,奖励函数应该提供反馈,这可以是奖励分数 ? 或偏好标签。根据是否需要训练特定的奖励模型,奖励函数可以分为直接反馈和基于模型的反馈。