大模型微调，为什么99%的企业都不应该碰这个坑？ - 链载Ai

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">昨天在公众号后台，有朋友私信，说他们公司现在打算做大模型微调，问我靠不靠谱，我了解了他们公司业务之后，直接跟那朋友说，这没戏，微调不是想做就能做的，就算做了也不一定能达到预期的效果。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">我还简单的跟他讲下了，这事我们也做过，也是从坑里走出来的。劝完这个朋友之后，我思绪难平，想着是不是可以写一篇文章，来具体讲下我的故事，以及我对微调这事得看法，于是就有了现在这篇文章。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0.3em 1.2em;color: rgb(255, 255, 255);background: rgb(0, 152, 116);border-radius: 8px 24px;box-shadow: rgba(0, 0, 0, 0.06) 0px 2px 6px;">说说我们的那次"折腾"

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">我们公司主要做企业级管理系统的，算是传统软件行业吧。这行其实很复杂，有各种业务术语、设计逻辑，外人看着就头大。对于通用大模型而，很难通过简单的上下文就让它明白我们当前要做的事情，要解决的问题。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">去年6月份的时候，我们技术总监开会时谈到："既然通用模型不懂咱们的业务，那就自己看看能不能训练一个，让它学会我们的设计思路，以后辅助我们写代码，甚至帮我们写代码。"

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">当时听着挺是那么回事，我也觉得这个想法不错。现在回想，当年真是too young too naive。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">项目一启动，问题就来了，而且一个接一个，简直让人怀疑人生。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-left: 12px;color: rgb(63, 63, 63);border-radius: 6px;background: color-mix(in srgb, rgb(0, 152, 116) 8%, transparent);">第一个坑：我们压根没人会这玩意儿

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">想着去招AI算法工程师？我们这二线城市，真正会微调的人才，用手指头都能数过来。在招聘网站上挂了好久的JD，很长时间都没有收到投递消息。好不容易通过猎头找到一个，张口就要50万年薪，比我们技术总监工资都高。老板听了直接摇头。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">没办法，只能让几个做C++开发同事临时抱佛脚学习。

结果一个多月后...环境都没搭起来！什么Hugging Face啦、PyTorch版本冲突啦、CUDA驱动各种问题，每天都有新的报错。那段时间我们几个人天天加班到9点多，就为了解决这些环境问题。

有次王工崩溃了，直接说："我感觉自己像个傻子，Python报错信息都看不懂。"

第二个坑：想外包，结果没人接活

既然自己搞不定，那就找专业公司呗。我们前前后后联系了8家AI公司，有知名的大厂，也有号称专业做微调的初创公司。

结果呢？

7家直接说不做，只有1家愿意报价，开口就是120万，还不保证效果。120万啊！我们部门一年的技术预算都没这么多。

后来和一个AI公司的朋友私下聊，他说实话："微调这活儿真不好做，每家企业需求都不一样，数据质量参差不齐，做砸了还得背锅。我们现在基本不接这种项目了。"

第三个坑：好不容易训练出来，新模型又出来了

经过半年的各种折腾（期间差点放弃好几次），我们总算搞出了一个能跑的模型。基于GPT-3.5改的，在我们的代码生成上...怎么说呢，还算能凑合用。

然后，悲剧开始了。

没过两个月，GPT-4横空出世。紧接着Claude-3也来了，还有一堆开源模型雨后春笋般冒出来。

我们几个人面面相觑，心里那个凉啊...花了半年功夫微调的模型，直接被新出的通用模型秒杀了。

更绝望的是，新模型的架构跟我们的完全不兼容。想要在GPT-4上重新微调？对不起，之前的工作全白费，从头再来。

那种感觉就像你刚花巨资装修好房子，第二天开发商说要拆迁重建。

算账的时候，我们都沉默了

项目结束后，财务让我们算算总成本。我拿着计算器按了半天：

人力成本最大头：王工、小李、张工3个人，前前后后折腾了半年，按人均月薪1.5万算，27万没了。

硬件也不便宜：买了2张4090显卡，4万块。

云服务费用：训练的时候租用GPU云服务器，各种试错，8万也烧完了。

数据标注费用：请了2个业务同事兼职做标注，给了6万辛苦费。

加起来45万。45万啊！

最终效果如何呢？在我们特定的代码生成任务上，比通用模型准确率高了大概10%左右。

但是...（这个但是很关键）

当我们用GPT-4加上精心调教的提示词测试时，效果比我们辛辛苦苦训练的模型还要好20%！

这不是搞笑吗？45万买了个寂寞。

冷静下来想想，微调到底难在哪？

现在回头看这次经历，我觉得问题不是出在某个具体环节，而是我们从一开始就低估了微调的复杂性。

首先是人的问题

真正懂微调的人太少了。不是说会写Python就能做微调，这完全是两码事。

我们那个王工，C++ 写了5年，技术也不错，但搞微调的时候天天都在崩溃边缘。他后来跟我说："我原本以为就是调调参数，喂喂数据，结果发现每一步都是坑。数据怎么预处理？模型架构怎么选？训练策略怎么设计？每个问题背后都有一堆理论知识。"

而且这个领域变化太快了，今天学会了一套方法，明天可能就过时了。像我们这种传统软件公司，让开发同事临时学习，根本不现实。

要招专业的人吧，市场上真正有经验的微调工程师，年薪都是50万起步。我们这种二线城市的公司，根本竞争不过。

问题2：产业链不成熟，服务缺失

AI公司的现实考量：

• 微调项目定制化程度太高，无法形成标准化产品
• 项目周期长，不确定性大，容易亏本
• 需要深度理解客户业务，人力投入巨大
• 效果难以保证，风险太高

而市场的反馈是：
我们联系的8家AI公司中，只有1家愿意报价，而且报价高达120万，还不保证效果。

其他公司的回复基本都是："建议您使用我们的通用API服务。"

翻译过来就是：微调这活儿我们不想接。

问题3：技术迭代太快，投资打水漂

现实情况：

• 大模型技术日新月异，几个月就有重大突破
• 微调一个模型通常需要3-6个月，甚至更久，等你搞完，基础模型已经更新好几代了
• 新旧模型架构不兼容，之前的微调工作无法迁移

血泪教训：
我们花了半年时间基于GPT-3.5架构微调的模型，GPT-4出来后瞬间过时。

更绝望的是，要在GPT-4上重复微调工作，意味着之前的投入全部归零。

这就像你刚花巨资买了一辆燃油车，第二天政府宣布全面推广电动车。

问题4：投入巨大，收益微薄

隐性成本被严重低估：

• 数据收集和标注：比想象中耗时耗力10倍
• 基础设施投入：GPU、存储、网络等硬件成本
• 试错成本：多次训练调试的算力消耗
• 人才成本：高薪聘请或培养专业人才
• 维护更新：模型需要持续优化和更新

效果提升有限：
我们最终的微调模型在专业任务上比通用模型好了约15%，但考虑到成本，完全不值得。

而且，随着通用模型的快速进步，这点优势很快就会被抹平。

什么样的企业适合搞微调？

说了这么多槽点，不是说微调一无是处。只是适合的企业真的很少很少。

我后来想了想，什么样的公司适合做微调呢？

首先得有专业团队
不是普通的开发团队，而是真正懂AI的那种。至少得有3个有大模型训练经验的算法工程师，1个数据工程师，还要有专门的业务专家做数据标注。这样的团队，光人力成本一年就要200万+。

其次得有好数据
不是随便凑点数据就行，得是高质量的、有标注的、覆盖全业务场景的数据。我们当时收集了5万条数据，以为够了，结果发现质量参差不齐，很多都得重新标注。

然后得有钱有耐心
初期投入至少100万起步，每年维护成本也要50万+。项目周期至少半年，还不一定能成功。你得有承受失败的心理准备。

最重要的是得有明确的商业价值
微调带来的效果提升，能产生多少经济价值？这个价值能不能覆盖成本？有没有更简单的方案？

老实说，同时满足这些条件的企业，全国估计不超过100家。大部分都是互联网大厂、金融机构这种有钱有技术的公司。

普通企业的明智选择：避开微调，专注应用

既然微调不适合大部分企业，那应该怎么做AI？

策略1：工程能力比模型能力更重要

我们后来放弃微调，专注于工程优化：

• 精心设计提示词，提升模型理解准确性
• 建立知识库，通过RAG技术增强模型能力
• 做好结果验证，降低AI犯错的风险
• 优化整个工作流程，而不是单纯优化模型

结果：用通用模型+工程优化，效果比微调模型还好。

策略2：选择合适的商业模式

•API优先：除非有特殊的数据安全要求，否则优先使用商业API
•开源补充：对于成本敏感的场景，考虑开源模型
•混合部署：根据不同场景选择不同的模型方案

策略3：关注长期趋势，不追求短期技术

• 通用模型能力提升很快，今天的差距明天可能就不存在了
• 专注于建立自己的数据资产和应用能力，而不是模型能力
• 保持技术方案的灵活性，随时能切换到更好的方案

策略4：分阶段投入，降低风险

• 先用最简单的方案验证可行性
• 证明有价值后再逐步加大投入
• 避免一开始就做大规模的技术赌博

写在最后，想说几句掏心窝子的话

写这篇文章的时候，我其实挺纠结的。一方面不想打击大家做AI的积极性，另一方面又觉得有必要把我们踩过的坑分享出来。

微调这个技术本身没什么问题，问题是很多企业（包括我们）对它的期望太高，对难度估计不足。

如果你们公司正在考虑微调，我想问几个问题：

你们有专业的AI团队吗？不是说会写Python就算，得是真正懂机器学习的那种。

你们的数据质量怎么样？不是说数据多就行，得是高质量、有标注的专业数据。

你们准备投入多少钱和时间？这不是个短期项目，得有长期投入的准备。

项目失败了你们承受得起吗？微调的不确定性很高，得有承受失败的心理准备。

如果这几个问题有任何一个答案是否定的，建议先别考虑微调。

其实更好的选择应该是：
把工程优化做到极致，用成熟的商业API，专注解决业务问题而不是技术问题。

我们后来就是这么做的，效果比微调还好，成本还低。

最后想说，AI这个领域变化太快了，选择合适的技术路线比追求最新的技术更重要。不要因为微调听起来很"高级"就盲目跟风。