金融大模型哪家强？OFLL 零样本评估告诉你答案！ - 链载Ai

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Open FinLLM Leaderboard (OFLL) 是一个专门评估金融领域大型语言模型（LLM）的平台。该平台提供了一个标准化、透明和全面的框架，涵盖七大类金融任务，并使用真实金融数据进行零样本评估。最新评估结果显示，GPT-4 和 Llama 3.1 表现出色，而一些小型模型在预测任务中也展现出优势，例如 Llama-3.1-7b 和 internlm/internlm-7b。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">金融领域呼唤更专业的 LLM 评测体系

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">近年来，大型语言模型（LLM）在各个领域都取得了突破性进展，金融领域也不例外。风险评估、投资组合优化、欺诈检测等金融任务都得益于 LLM 对海量金融数据强大的分析和预测能力。根据 Statista [1]的数据，全球 AI 在金融领域的市场规模预计将从 2023 年的 149 亿美元增长到 2028 年的 412 亿美元，年复合增长率高达 22.4%。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">然而，传统的 LLM 评估平台大多侧重于通用自然语言处理（NLP）任务，例如翻译或摘要，难以满足金融领域的特殊需求。金融任务的复杂性和专业性要求评估平台必须具备对金融领域知识的深入理解，例如对金融术语、市场动态、监管政策的掌握，才能准确评估 LLM 在真实场景中的应用效果。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">正是在这种背景下，Open FinLLM Leaderboard 应运而生，为金融领域的 LLM 评估树立了新标杆。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">Open FinLLM Leaderboard：聚焦金融，精准评估

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Open FinLLM Leaderboard (OFLL) 是一个专门针对金融领域 LLM 的评估平台，旨在提供一个标准化、透明和全面的框架，以评估 LLM 在各种金融任务中的表现。与传统的通用 LLM 评估平台不同，OFLL 更关注模型在金融领域的专业能力，例如从金融报告中提取信息、分析市场情绪和预测金融趋势。OFLL 的一大特色是使用真实金融数据进行零样本评估，即在没有对模型进行特定任务微调的情况下进行评估。这种方法可以更客观地评估模型的泛化能力，即模型在未见过的数据上的表现。零样本评估也避免了数据泄露等问题，使得评估结果更具可靠性。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">七大任务类别，全方位解读金融数据

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">为了全面评估 LLM 在金融领域的应用能力，OFLL 涵盖了七大类任务：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;background: rgba(0, 0, 0, 0.05);font-weight: bold;color: rgb(255, 255, 255);">

任务类别	描述	示例
信息提取 (IE)	从非结构化文本（如监管文件、合同和收益报告）中提取结构化信息，例如识别金融实体、关系和事件。	识别公司名称、股票代码、收购、合并、破产、盈利预警等信息。
文本分析 (TA)	分析金融文本的情感、观点和意图。	判断市场情绪是看涨还是看跌，识别新闻事件对市场的影响，以及分析政策声明的鹰派或鸽派倾向。
问答 (QA)	理解复杂金融问题并提供准确答案。	回答有关财务报表、市场趋势和经济指标的问题。
文本生成 (TG)	生成流畅、准确和信息丰富的金融文本。	总结冗长的金融报告、撰写投资分析报告或生成新闻稿件。
风险管理 (RM)	识别、评估和管理金融风险。	预测贷款违约风险、识别欺诈交易、以及评估投资组合风险。
预测 (FO)	预测未来市场趋势和金融指标。	预测股票价格走势、利率变化或市场波动性。
决策 (DM)	在复杂金融环境中做出明智决策。	模拟股票交易策略、制定投资组合配置方案或评估并购机会。

信息提取（IE）

信息提取任务指的是从非结构化文本中提取出结构化信息，例如识别金融实体、关系和事件。这类任务在金融领域应用非常广泛，例如：

文本分析（TA）

文本分析任务指的是分析金融文本的情感、观点和意图。这类任务可以帮助金融机构了解市场动态、投资者情绪以及政策走向，例如：

问答 (QA)

问答任务指的是理解复杂金融问题并提供准确答案。这类任务可以帮助金融机构更高效地获取信息、进行决策，例如：

文本生成 (TG)

文本生成任务指的是生成流畅、准确和信息丰富的金融文本。这类任务可以帮助金融机构自动生成报告、撰写分析文章，例如：

风险管理 (RM)

风险管理任务指的是识别、评估和管理金融风险。这类任务可以帮助金融机构降低风险、提高盈利能力，例如：

预测 (FO)

预测任务指的是预测未来市场趋势和金融指标。这类任务可以帮助金融机构制定投资策略、进行风险管理，例如：

决策 (DM)

决策任务指的是在复杂金融环境中做出明智决策。这类任务可以帮助金融机构进行投资、并购等操作，例如：

多维度指标，全方位评估模型性能

为了更全面地评估模型性能，OFLL 提供了多种评估指标，例如：

最佳模型和意外发现：GPT-4 领跑，小模型也有一席之地

在 OFLL 的评估中，GPT-4 和 Llama 3.1 表现出色，在多个任务中都取得了领先的成绩，展现出强大的金融文本理解和生成能力。例如，在金融情感分析任务FPB (Financial PhraseBank Sentiment Classification)中，GPT-4 和 Llama 3.1 都取得了很高的准确率和 F1 分数，证明了它们在识别金融文本情感方面的优势。

下表展示了 Open FinLLM Leaderboard 截至 2023 年 12 月 1 日的最新排名：

排名	模型	平均得分	信息提取	文本分析	问答	文本生成	风险管理	预测	决策	西班牙语
1	GPT-4	39.2	35	64.4	50.7	10	51.7	54.3	75.2	32.2
2	LLaMA3.1-70B	36.2	15.7	63.6	14.7	9	0	46	49.3	0
3	Qwen2-72B	34.7	12.6	59.5	0.3	11	0	53.7	0	0
4	Xuanyuan-70B	34.4	9.3	61.4	0.7	12.5	0	51.7	0	0
5	LLaMA3.1-8B	34.3	15.6	56.2	1.3	10	0	54.3	0	0
6	Gemini	32.4	22.1	58.4	20.3	19.5	51.8	53.7	67.2	0
7	ChatGPT	29.2	26.4	59	39.3	8.5	45.6	52.7	0	30.2
8	meta-llama/Llama-2-70b	25.8	10.6	59.9	10.7	12.5	50	49	0	0
9	Duxiaoman-DI/XuanYuan-6B-Chat	25.7	11.1	54.2	3.7	12	50.7	50.3	0	39.5
10	Qwen/Qwen2-7B-Instruct	22.9	9.9	52.7	0	11	51.6	52.3	0	17.8
11	TheFinAI/finma-7b-full	21.5	12.6	48.7	8	6.5	49.7	50.7	0	15.8
12	internlm/internlm-7b	20.4	12.6	47.3	0	6.5	50.2	54.7	0	10.8

值得一提的是，在预测任务中，一些小型模型（如 Llama-3.1-7b 和 internlm/internlm-7b ）的表现甚至优于大型模型（如 LLaMA3.1-70B）。这表明，在金融预测领域，模型规模大小并非决定性因素，更需要关注模型对市场数据和情绪的敏锐感知能力。小型模型由于参数量更少，训练和推理速度更快，在处理实时性要求高的金融数据时可能更具优势。

OFLL排名榜单的使用方法

OFLL排名榜单提供了一个用户友好的界面，方便用户查看模型排名、筛选模型和提交新模型。用户可以根据自己的需求，选择要显示的任务类别，例如只关注模型在情感分析任务上的表现。

此外，用户还可以根据模型的类型、精度、大小等特征筛选模型。例如，选择只显示基于 Transformer 架构的模型，或者只显示精度为 float32 的模型。在选择任务和模型后，OFLL排名榜单会显示一个任务表，其中包含了每个模型在每个任务上的得分。用户可以点击表格的列标题对模型进行排序，例如按照平均 F1 分数排序，或者按照某个特定任务的得分排序。

如果用户想要提交自己的模型到 OFLL排名榜单进行评估，只需要提供模型的名称、描述、代码库地址等信息，以及模型的权重文件。OFLL排名榜单会自动对提交的模型进行评估，并将评估结果添加到任务表中。

展望：Open FinLLM Leaderboard，共建金融 LLM 发展新生态

Open FinLLM Leaderboard 不仅仅是一个评估平台，更是一个推动金融领域 LLM 发展的开放社区。平台鼓励用户提交自己的模型进行评估，也可以贡献数据集或评估任务，共同完善和扩展平台的功能。

Open FinLLM Leaderboard 的出现，为金融 LLM 的发展指明了方向。相信在未来，会有更多更优秀的金融 LLM 涌现，为金融行业带来更多创新应用，例如：