对于上述问题,本次分享一篇利用强化学习来提升事件抽取的方法<EventRL: Enhancing Event Extraction with Outcome Supervision for Large Language Models >。其背后的思想是:LLM在训练的时候采用token级的交叉熵作为训练目标,可以理解在优化的目标是让生成的token与目标token一个个对齐,且每个token的权重都是一样的;而在事件抽取的时候,生成的结果跟事件定义相关的token才是最重要的,权重是不一样的,如输出结果以的json的格式,这些[],''符号对比起来就没那么重要;所以论文提出强化学习的思路,让LLM的学习向与事件相关的token进行下倾斜。