我们不仅期待AI能够进行知识库问答和特定领域的AIGC,还希望它能像智能机器人一样,自主完成各种任务。
例如,当测试人员提出一个测试目标或演示需求时,AI能够理解我们的意图,并自主地访问目标网站、登录系统、点击菜单、输入表单、获取数据,并反馈结果。整个过程无需人为介入,也无需事先准备各种自动化脚本,真正实现了智动化执行。让我们直接通过Demo来展示这一能力(注意Demo中“执行任务”之后的所有动作,均由AI自主完成):
该项目名为Skyvern,是Github上一个基于LLM和计算机视觉的浏览器自动化方案。作为一类AI Agent应用(注:AI Agent是一种能够感知环境、进行决策和执行动作的智能实体),其实现原理为:首先,使用Playwright工具作为“手”,负责执行浏览器操作,如页面导航、点击、输入等。与此同时,SoM视觉标记作为“眼睛”,帮助识别页面元素,确保自动化流程的准确性。最后,LLM大模型作为“大脑”,负责理解用户需求,规划操作步骤,并协调“手”和“眼”完成一系列复杂的浏览器操作,实现高度智能化的自动化流程。Github上还有许多类似的AI Agent初创项目,我们可以打开想象力,持续调研和实践各类基于LLM大模型的AI应用。而大模型一体机为这些AI应用的孵化提供了有力支撑,我们能够快速实现各类AI应用的接入和调试,支撑AI应用从研发到发布、部署再到商用的完整流程:创建大模型实例并获取API接口
AI应用对接私域大模型API为了让AI Agent对接到我们的私域大模型,通常需要阅读AI Agent源码,定位Agent与LLM交互的那部分代码和逻辑,并对其进行一些改造,例如引入LiteLLM库来代理Agent到LLM的API调用(注:LiteLLM是一个用于管理LLM大型语言模型的Python库。它支持多种LLM提供者,如OpenAI、Anthropic、VertexAI等,并能够通过Custom API Server与自定义的大模型API进行对接)。本例中,我们即使用LiteLLM的Custom API Server功能来对接我们的私域大模型API,改造代码示例如下:

AI应用的打包发布和部署上线