结果一个多月后...环境都没搭起来!什么Hugging Face啦、PyTorch版本冲突啦、CUDA驱动各种问题,每天都有新的报错。那段时间我们几个人天天加班到9点多,就为了解决这些环境问题。
有次王工崩溃了,直接说:"我感觉自己像个傻子,Python报错信息都看不懂。"
既然自己搞不定,那就找专业公司呗。我们前前后后联系了8家AI公司,有知名的大厂,也有号称专业做微调的初创公司。
结果呢?
7家直接说不做,只有1家愿意报价,开口就是120万,还不保证效果。120万啊!我们部门一年的技术预算都没这么多。
后来和一个AI公司的朋友私下聊,他说实话:"微调这活儿真不好做,每家企业需求都不一样,数据质量参差不齐,做砸了还得背锅。我们现在基本不接这种项目了。"
经过半年的各种折腾(期间差点放弃好几次),我们总算搞出了一个能跑的模型。基于GPT-3.5改的,在我们的代码生成上...怎么说呢,还算能凑合用。
然后,悲剧开始了。
没过两个月,GPT-4横空出世。紧接着Claude-3也来了,还有一堆开源模型雨后春笋般冒出来。
我们几个人面面相觑,心里那个凉啊...花了半年功夫微调的模型,直接被新出的通用模型秒杀了。
更绝望的是,新模型的架构跟我们的完全不兼容。想要在GPT-4上重新微调?对不起,之前的工作全白费,从头再来。
那种感觉就像你刚花巨资装修好房子,第二天开发商说要拆迁重建。
项目结束后,财务让我们算算总成本。我拿着计算器按了半天:
人力成本最大头:王工、小李、张工3个人,前前后后折腾了半年,按人均月薪1.5万算,27万没了。
硬件也不便宜:买了2张4090显卡,4万块。
云服务费用:训练的时候租用GPU云服务器,各种试错,8万也烧完了。
数据标注费用:请了2个业务同事兼职做标注,给了6万辛苦费。
加起来45万。45万啊!
最终效果如何呢?在我们特定的代码生成任务上,比通用模型准确率高了大概10%左右。
但是...(这个但是很关键)
当我们用GPT-4加上精心调教的提示词测试时,效果比我们辛辛苦苦训练的模型还要好20%!
这不是搞笑吗?45万买了个寂寞。
现在回头看这次经历,我觉得问题不是出在某个具体环节,而是我们从一开始就低估了微调的复杂性。
真正懂微调的人太少了。不是说会写Python就能做微调,这完全是两码事。
我们那个王工,C++ 写了5年,技术也不错,但搞微调的时候天天都在崩溃边缘。他后来跟我说:"我原本以为就是调调参数,喂喂数据,结果发现每一步都是坑。数据怎么预处理?模型架构怎么选?训练策略怎么设计?每个问题背后都有一堆理论知识。"
而且这个领域变化太快了,今天学会了一套方法,明天可能就过时了。像我们这种传统软件公司,让开发同事临时学习,根本不现实。
要招专业的人吧,市场上真正有经验的微调工程师,年薪都是50万起步。我们这种二线城市的公司,根本竞争不过。
AI公司的现实考量:
而市场的反馈是:
我们联系的8家AI公司中,只有1家愿意报价,而且报价高达120万,还不保证效果。
其他公司的回复基本都是:"建议您使用我们的通用API服务。"
翻译过来就是:微调这活儿我们不想接。
现实情况:
血泪教训:
我们花了半年时间基于GPT-3.5架构微调的模型,GPT-4出来后瞬间过时。
更绝望的是,要在GPT-4上重复微调工作,意味着之前的投入全部归零。
这就像你刚花巨资买了一辆燃油车,第二天政府宣布全面推广电动车。
隐性成本被严重低估:
效果提升有限:
我们最终的微调模型在专业任务上比通用模型好了约15%,但考虑到成本,完全不值得。
而且,随着通用模型的快速进步,这点优势很快就会被抹平。
说了这么多槽点,不是说微调一无是处。只是适合的企业真的很少很少。
我后来想了想,什么样的公司适合做微调呢?
首先得有专业团队
不是普通的开发团队,而是真正懂AI的那种。至少得有3个有大模型训练经验的算法工程师,1个数据工程师,还要有专门的业务专家做数据标注。这样的团队,光人力成本一年就要200万+。
其次得有好数据
不是随便凑点数据就行,得是高质量的、有标注的、覆盖全业务场景的数据。我们当时收集了5万条数据,以为够了,结果发现质量参差不齐,很多都得重新标注。
然后得有钱有耐心
初期投入至少100万起步,每年维护成本也要50万+。项目周期至少半年,还不一定能成功。你得有承受失败的心理准备。
最重要的是得有明确的商业价值
微调带来的效果提升,能产生多少经济价值?这个价值能不能覆盖成本?有没有更简单的方案?
老实说,同时满足这些条件的企业,全国估计不超过100家。大部分都是互联网大厂、金融机构这种有钱有技术的公司。
既然微调不适合大部分企业,那应该怎么做AI?
我们后来放弃微调,专注于工程优化:
结果:用通用模型+工程优化,效果比微调模型还好。
写这篇文章的时候,我其实挺纠结的。一方面不想打击大家做AI的积极性,另一方面又觉得有必要把我们踩过的坑分享出来。
微调这个技术本身没什么问题,问题是很多企业(包括我们)对它的期望太高,对难度估计不足。
如果你们公司正在考虑微调,我想问几个问题:
你们有专业的AI团队吗?不是说会写Python就算,得是真正懂机器学习的那种。
你们的数据质量怎么样?不是说数据多就行,得是高质量、有标注的专业数据。
你们准备投入多少钱和时间?这不是个短期项目,得有长期投入的准备。
项目失败了你们承受得起吗?微调的不确定性很高,得有承受失败的心理准备。
如果这几个问题有任何一个答案是否定的,建议先别考虑微调。
其实更好的选择应该是:
把工程优化做到极致,用成熟的商业API,专注解决业务问题而不是技术问题。
我们后来就是这么做的,效果比微调还好,成本还低。
最后想说,AI这个领域变化太快了,选择合适的技术路线比追求最新的技术更重要。不要因为微调听起来很"高级"就盲目跟风。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |