链载Ai

标题: AIOps探索:我基于Coze设计了一款自动化运维智能体 [打印本页]

作者: 链载Ai    时间: 前天 22:16
标题: AIOps探索:我基于Coze设计了一款自动化运维智能体

最近一直在探索和研究智能运维平台的可落地方案,说实话难度很大,因为很多细节在当前的技术背景下落地难度还是有点大。我们不妨曲线救国,与其做平台要考虑各种复杂场景,不如先实现和落地某一项功能模块。所以,当前我研究的方向为自动化运维智能体!

目标:给智能体下达人类通用语言指令,然后智能体会自动去落地执行,比如,我想对某台或者某一组服务器做巡检,只需要对智能体下达指令“对xxx业务进行一次巡检,请把巡检结果发给我”,智能体会自动通过自动化运维插件对该业务对应的服务器进行巡检,巡检完后会自动汇总整理结果展示给用户。

一、工作原理

1、用户输入:用户用自然语言下达指令(如:“对订单业务集群进行一次健康巡检,结果整理成报告发到我的邮箱”)。

2、意图理解(大脑):Coze平台的大型语言模型(如GPT-4)会解析用户的指令,识别出:

3、指令分发与执行(手脚):LLM根据识别出的意图,自动调用您预先配置好的插件工作流

4、插件会去调用已有的运维工具API(如Ansible, SaltStack, Prometheus, Zabbix, 或内部自研系统)。

5、数据收集与整理:插件执行后,会返回原始的、可能很分散的数据(如JSON格式的监控数据)。

6、结果生成与回复:LLM再次发挥作用,充当“分析师”和“文秘”的角色,将插件返回的原始数据总结、归纳、翻译成人类易懂的自然语言报告,并最终呈现给用户。

二、在Coze上落地

要在Coze上构建这个智能体,您需要配置以下几个核心模块:

1、插件

这是智能体的“手脚”,是与外部运维系统对接的关键。需要开发自定义插件,Coze平台允许我们编写HTTP API插件来连接任何系统。

比如,我们可以开发如下插件

如上插件仅仅是给大家举例,你可以根据自己的实际需求场景来开发合适的插件。

2、工作流(可选但推荐)

对于复杂的任务(比如,巡检),可以创建一个工作流来定义标准化步骤。

工作流可以让整个过程更可视化、更易于维护。

3、知识库(增强能力)

这就需要我们上传公司内部的运维文档、巡检标准手册等,让智能体在生成报告时更能符合内部的规范和标准,回答也更准确。如果涉及数据私密性,需要做数据的脱敏,也可以部署Coze到内网。

4、预设提示词

这是智能体的“人格和核心指令”,非常重要。这个模块通常会耗费大量精力,因为提示词需要精心设计,示例提示词如下:

你是一个专业的运维专家助手。你的核心职责是:理解用户的运维指令,并自动调用工具插件执行任务。当用户要求进行巡检时,你必须:1.明确询问或推断出巡检的目标(业务名、主机IP等)。2.调用相应的巡检插件。3.将插件返回的原始数据,分析整理成一份结构清晰、重点突出的中文巡检报告。4.报告应包括概述、详细发现(正常项和异常项)、以及初步建议。5.如果发现严重异常,应立即提醒用户。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5