|
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读大模型时代已来临,每个组织以及每个人的知识体系都需要重塑,思考如何更好地利用 AI 工具提升效率,以应对未来的变化。而始终不变的是,我们要持续学习,时刻保持好奇心,以不变应对未来更多的变化。本文将分享度小满在金融行业对大模型技术的探索与实践。 1.从通用大模型到金融大模型 2.金融大模型的训练技术创新 3.金融大模型的评测方法创新 4.金融大模型的应用实践创新 5.总结:金融大模型迭代路径 分享嘉宾|杨青度小满技术委员会执行主席、数据智能应用部总经理
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(58, 79, 89);font-size: 15px;letter-spacing: 0.034em;">01 ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background: white;text-align: center;line-height: 2em;">从通用大模型到金融大模型
1.大模型涌现超预期能力,有望为金融行业创造价值增量
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background: white;line-height: 2em;">金融行业具有三大特性:ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background-color: rgb(255, 255, 255);list-style-type: square;" class="list-paddingleft-1">数据驱动:金融是一个关于数据的生意,所有的决定都需要通过分析数据来做决策。 高度知识化密集产业:金融是一个高度知识化密集的行业,有非常多的专业领域知识,不在这一行业中的人是很难知道的。另外,金融内部也有理财、保险、信贷等不同的细分领域,知识结构复杂密集。 业务流程极其复杂:金融是需要非常多人工去协作的一个产业,业务流程极其复杂。 ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background: white;line-height: 2em;">这三个特性其实跟大模型本身的逻辑理解记忆等能力是非常匹配的。所以我们一直认为金融领域是一个天然的大模型的最佳应用场景。我们也希望通过探索为金融行业带来更多的价值增量。
2.通用模型难胜任金融任务,大模型落地金融面临挑战ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background: white;line-height: 2em;">我们为什么需要一个金融行业自己的大模型呢?因为当前通用模型的能力还存在缺陷。主要包括以下三个方面:ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background-color: rgb(255, 255, 255);list-style-type: square;" class="list-paddingleft-1">金融知识挑战:金融行业有自己领域内的专业知识,比如 KS、MOB、COB 等专业术语,通用大模型可能不了解。 金融能力挑战:大模型目前还存在幻觉问题、计算准确性问题、遗忘问题等。金融行业是数据驱动的业务,对数据准确性要求比较高,通用大模型存在的这些问题无法满足金融行业的需求。 应用成本挑战:通用模型的成本相对较高,我们希望通过行业模型去降低应用成本。 ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background: white;line-height: 2em;">基于以上三个挑战,我们认为做金融领域的行业大模型是非常有必要的。
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(51, 51, 51);background: white;line-height: 2em;">上图左边的基础数据源自 meta 论文。可以看到,LLaMA-2 模型训练 2T tokens,用 A100 大概需要多少时间。如果参数是 70B,原论文里写的是需要 172 万卡时,折成 48 台 A100 机器,就需要 187 天,也就是半年的时间,这还是在训练过程中没有任何训练故障,训练效率和效果没有任何反复的情况下的一个时间。假设中间有一些机器发生故障,或者效果不及预期需要迭代,那用 48 台 A100 机器训练,可能就需要一年时间。这个训练成本对于很多企业来讲是极其昂贵的。
再来看下推理的资源,如果是一个 70B 的大模型,它所需要显卡内存是 129G,也就是需要两张 A100。所以对于大多数企业来讲,通用模型的训练和推理成本是非常高昂的。
上图右边是行业大厂的一些探索。比如微软有一篇论文提到,一个高质量的领域数据,能够让模型表现出比它参数大五倍的模型相近的效果。这一点很容易理解,如果把大模型当成一个人,一个天赋一般的选手,通过后天的不断努力,并且只专心某一个行业,那他在这个行业取得的成就可能会比天赋好的人更高。度小满也做过实验,比如一个 13B 模型通过不断调优,它在金融领域内某个场景的效果会比通用的 70B 的效果更好。所以我们希望用一个更小的模型,通过不断学习行业知识,达到一个更大模型的效果。 |