2.基于企业数据的领域数据集构建
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.模型训练方法的选择ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.验证集的构建及模型评估方法ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">5.国产硬件评测ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">6.问答环节分享嘉宾|陈峰 北京滴普科技有限公司 Senior Research Fellow
编辑整理|于苗苗
内容校对|李瑶
出品社区|DataFun
通用大模型已有许多优秀的开源数据集,注重广度、覆盖各行各业,但在特定行业的深度不够,或只在某几个行业具备一定深度。比如 Code Llama(代码生成大模型)在 Python、Java 等代码层面有较多的数据集的积累,但其他冷门语言的数据集较少。
领域大模型可以使用通用数据,但不能完全使用,因此受限于行业。目前只有少数行业存在行业数据集,比如法律行业有裁判文书等开源数据集,但较多行业比如零售没有数据集。
事先准备通识验证数据集。
针对五个维度,客户准备具体领域的数据集。
准备一个基准模型,可以用 Llama2、chatGLM、百川之类的开源大模型做基准。如下图所示,将基准模型和我们模型的能力放到同一个雷达图上,得出两者之间面积的重合点以及两者的差距,这是一种横向对比的方法。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |