链载Ai

标题: 哪个中文开源大模型在信息抽取上效果最好?附:用于提取的提示词 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 哪个中文开源大模型在信息抽取上效果最好?附:用于提取的提示词

哪个中文开源大模型在信息抽取上效果最好?附:用于提取的提示词

发布时间:2024 年 06 月 04 日

知识图谱

Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks

信息抽取(IE)是 NLP 中的关键技术,它从非结构化文本中提炼出结构化信息,助力各类依赖结构化数据的应用。尽管 IE 的重要性不言而喻,但近期针对英语 IE 任务的实验显示,大型语言模型(LLMs)在如命名实体识别(NER)等子任务上达到最佳性能仍面临挑战。本文深入分析了主流中文开源 LLMs 在零样本条件下的 IE 任务表现,并展示了少样本实验的结果,以评估其能力。同时,我们还将这些模型与知名语言模型 ChatGPT 在 IE 性能上进行了比较。通过详尽的实验与分析,我们旨在揭示中文开源 LLMs 在 NLP 信息抽取领域的优势、局限及改进潜力。

https://arxiv.org/abs/2406.02079

1. 背景

信息抽取(Information Extraction,IE)一般包括命名实体识别(Named Entity Recognition,NER)、关系抽取(Relation Extraction,RE)和事件抽取(Event Extraction,EE)。

NER作为基础任务,专注于识别并分类文本中的命名实体,如人物、组织、地点和日期。

RE则致力于发现实体间的语义联系,比如某人在某地工作或两人之间的婚姻关系。

EE则关注于识别文本中的特定事件及其相关要素,这些事件是特定时间、地点下发生的,涉及特定参与者和实体的行动或现象。

今天这篇论文的作者选取了4个中文开源模型进行实验和对比,这4个开源模型分别是:ChatGLM3-6B、Qwen-7B-Chat与Qwen-14B-Chat 、Baichuan2-13B-Chat。并且选取了ChatGPT作为测试基准进行对比。之所以选取这几个模型,是因为这几个模型在SuperCLUE排行榜上排名比较靠前,并且这几个模型都可以在一张A40的GPU上完成部署。

引申阅读:

2. 信息抽取方法

2.1 命名实体识别方法

命名实体识别(NER)方面,作者采用了两种策略:基础法和分步法。

下图是作者用于命名实体识别的提示词:

2.2 关系抽取方法

关系抽取(RE)实验中,采用了两种零样本框架:VanillaRE和QA4RE。在这两种框架下,模型输入包括句子、两个实体以及所有可能的关系类型,分别设置了有类型约束和无类型约束两种情况。

下图是作者用于关系抽取的提示词:

2.3 事件抽取方法

事件抽取(EE)任务因难度较高且基础框架表现不佳,作者只展示了分步法的实验结果,并对比了不同大型语言模型的性能。在分步法的第一阶段,模型负责从文本中识别所有预定义的事件类型;第二阶段则进一步提取每种事件类型的论元角色及其内容。

下图是作者用于事件抽取的提示词:

3. 到底哪个模型强!

3.1 命名实体识别任务哪个模型强?

在命名实体识别(NER)任务上,作者对比了零样本和少样本两种策略。零样本测试中,动用了五款大型语言模型(LLMs),并针对两个数据集进行了性能评估。少样本测试中,挑选了零样本评估中表现最优的开源模型 Qwen-14B-Chat,进一步在两个数据集上进行了测试。

3.1.1 零样本测试

NER 的零样本测试成果展示在下表中。

3.1.2 少样本测试

NER 的少样本测试结果如下表。作者对每种方法进行了三种不同样本量的少样本测试:1个、5个和10个样本。

(3) 2-Stage方法的测试结果呈现出不同的变化趋势。除了在Weibo数据集上从5样本增加到10样本时召回率轻微下降外,其他所有测试都显示,随着样本数量的增加,同一数据集上的召回率有所提升。这可能与(1)中提到的原因有关,即生成更多内容时,实验的召回率也在一定程度上得到了改善。

3.2 关系抽取任务哪个模型强?

中文零样本关系抽取的结果如下表。

讨论DuIE 2.0数据集的局限性时,值得注意的是,在类型约束设置中,许多实体对只保留了正确的关系类型和“无上述关系”(NoTA)。例如,出版社和书籍之间的关系类型仅限于“出版”或NoTA。这在一定程度上解释了为什么LLM在类型约束条件下能够表现卓越。

3.3 事件抽取任务哪个模型强?

上表展示了零样本事件抽取任务的结果。鉴于事件抽取对模型理解力的更高挑战,只能采用两阶段分解法,才能提炼出更为明晰的答案。ChatGPT以其卓越的理解力和对复杂提示格式要求的精准把握,再次以所有大型语言模型中最高的F1分数领跑。在开源模型领域,Baichuan2-13B-Chat表现出色,尽管其F1分数仍落后ChatGPT高达31.22分







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5