AI系列-谈测试团队自建私有大模型VS使用通用大模型

显示全部楼层

前言

人工智能飞速发展，大模型（Large Language Models, LLMs）在各行各业的应用日益广泛。对于测试团队而言，在寻求借助AI技术辅助日常工作的过程中，常常会面临一个关键问题：是自建私有开源大模型，还是使用市场上的通用大模型？本文将尝试对此进行深入分析和建议。酷家乐测试团队有借助AI辅助工作的实践，8-9月我们组织系列专题文章的分享，大家可以持续关注公众号更新。

私域大模型搭建成本

如果要搭建能力近似于GPT3的大模型，即便软件层面现在许多开源大模型可供选择，但仍面临一些典型的问题，下面进行分解。

高昂的初期投入

硬件资源需求：自建私有开源大模型需要大量的计算资源和存储空间，这通常需要购买高性能的GPU服务器或云计算资源，成本较高。结合机房和电费成本，这可能是一笔不小的负担。对于测试组的访问量通常较小，完全不足以cover住成本。
人才和技术门槛：自建模型需要专业的技术人才，包括数据科学家、机器学习工程师等，他们需要掌握先进的算法和模型训练技术。如果公司内部缺乏这些人才，还需要额外招聘或培训，进一步增加成本，对于没有独立大模型部门的公司，这一点会成为重要瓶颈，既懂大模型又懂测试行业的人非常少。

复杂的技术挑战

模型训练与优化：大模型的训练过程复杂且耗时，需要处理海量的数据和复杂的算法。通常现有公司内的文档和代码都需要规则化的梳理，才能作为优质语料投喂到大模型中，在训练过程中，还需要不断对模型进行调优，以提高其性能和准确性。
持续的技术支持与维护：自建模型后，公司需要持续投入资源进行模型的维护和更新，以应对技术变革和业务需求的变化。这包括模型的版本升级、性能优化、错误修复等方面的工作。

灵活性和可扩展性的限制

灵活性不足：自建模型可能无法快速适应市场变化和业务需求的变化。如果公司需要调整模型的功能或应用范围，可能需要重新进行模型的训练和调优，这将耗费大量的时间和资源。
可扩展性挑战：随着业务规模的扩大，公司可能需要扩展模型的规模和性能。然而，自建模型在扩展性方面可能存在一定的限制，如硬件资源的瓶颈、算法复杂度的增加等。

综上所述私域大模型不是一个普通团队可以轻易启动的工程，回归通用大模型是正途，针对通用模型存在的问题，滋生了RAG+通用大模型的方案，尤其对测试团队非常适合用这种结构来解决问题

RAG模式对比私有大模型的优点

通用大模型无法识别个性化的业务信息，只能借助提示词来传递，为了有针对性的筛选高价值信息传递给大模型，结合知识库的RAG（Retrieval-Augmented Generation，检索增强生成）就发展起来

RAG模式优点主要体现在以下几个方面：

提升回答准确性和相关性

实时信息检索：RAG技术允许通用大模型在生成回答之前，先通过检索模块从大规模知识库中检索与问题相关的信息。这使得模型能够实时获取最新、最准确的数据，从而显著提高回答的准确性。
减少幻觉问题：通用大模型在生成文本时，有时会因为训练数据的局限性而产生无根据或不准确的信息，即"幻觉问题"。RAG通过引入外部知识库检索，为生成过程提供了可靠的事实依据，有效减少了这类问题。

增强知识覆盖和领域适应性

广泛的知识库支持：RAG结合通用大模型，可以利用互联网上广泛存在的知识库，包括学术论文、新闻报道、专业文档等，从而极大地增强了模型的知识覆盖能力。
领域定制性：对于特定领域或专业问题，RAG技术可以通过对接特定行业或领域的文本数据集，为通用大模型提供针对性的专业知识支持，使其在不同领域都能表现出色。

提高模型的可控性和可解释性

可控性：通过RAG技术，用户可以更加灵活地控制模型的生成过程。例如，通过调整检索模块的参数或优化检索策略，可以引导模型生成更符合预期的回答。
可解释性：RAG模型在生成回答时，能够展示模型预测所依赖的检索条目，这为用户提供了理解模型决策过程的透明窗口，增强了模型的可解释性。

降低数据安全和隐私风险

本地数据检索：对于敏感或机密数据，企业可以选择在本地部署RAG系统，通过在公司内部的敏感数据源上进行检索，既提升了大语言模型生成质量，又避免了数据泄露的风险。

优化资源利用和成本效益

减小模型规模及训练开销：RAG技术使得开发者无需为每个特定任务重新训练大型模型，只需连接外部知识库即可，从而减小了模型规模和训练开销。
灵活更新与扩展：随着新知识的不断产生，RAG系统可以通过简单地更新知识库来保持模型的时效性，而无需重新训练整个模型，这大大提高了资源利用效率和成本效益。

综上所述，使用RAG+通用大模型能够显著提升模型的回答准确性、知识覆盖能力、可控性、可解释性以及资源利用效率，同时降低数据安全和隐私风险，为自然语言处理领域的应用提供了更加全面和强大的支持。

使用RAG+通用大模型的缺点

信息安全的问题，把敏感信息投喂到通用大模型仍旧是存在风险的，大体上大部分企业的测试脚本和测试数据存在的敏感数据有限，除非是本身就要高度保密的业务，不适合这种场景。
访问稳定性和确定性的问题

大模型版本和数据不是控制在自己手中，返回结果存在不确定性。
访问国外的大模型仍然存在各种限制，可能导致API的稳定性。

测试团队借助大模型可做的方向

知识库问答机器人
测试代码的code review
基于知识库的测试代码生成
基于知识库的测试用例生成
基于知识库进行数据分析，例如监控分析，质量数据分析等
基于知识库进行故障应急，例如基于公司内知识库的故障应急的agent机器人
内部的测试文档汇总归类梳理

总结

经过上面对比，RAG+通用大模型是目前大多数测试团队的选择。
酷家乐目前基于RAG+通用大模型来提供AI底座，进行了AI辅助测试工作的实践。