链载Ai

标题: YC 揭秘顶尖 AI 智能体 Prompt 工程:不再是「黑箱」,而是可进化的「代码」与「员工」 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: YC 揭秘顶尖 AI 智能体 Prompt 工程:不再是「黑箱」,而是可进化的「代码」与「员工」

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 16px;word-break: break-all;min-height: 20px;">Prompt 被视为大语言模型的「咒语」,已经演变为与 AI 交互的核心,成为构建高效、可靠 AI 应用的关键环节。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 16px;word-break: break-all;min-height: 20px;">最近,在 YC 的 Lightcone 的播客节目中,来自 AI 创投和技术前沿的专家 Garry, Harj, Diana, 和 Jared 深入剖析了他们在与数百名 LLM 领域创始人合作过程中积累的宝贵经验。

Image

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 16px;word-break: break-all;min-height: 20px;">他们探讨了为何 Prompt 依然至关重要,它在哪些环节容易失效,以及顶尖团队是如何在生产环境中提升其可靠性的。他们不仅分享了 Prompt 失败的真实案例,还揭示了公司如何进行质量测试,以及优秀团队如何使 LLM 的输出变得实用且可预测。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 16px;font-size: 20px;padding-bottom: 12px;">ParaHelp 实战:六页 Prompt 只为客服智能体更「懂」你

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 16px;word-break: break-all;min-height: 20px;">要理解当前最先进的 Prompt 工程,不妨从一个具体的例子入手。AI 客服公司 ParaHelp 为 Perplexity、Replika、Bolt 等知名 AI 公司提供客户支持服务,其 AI 智能体背后正是由精心设计的 Prompt 驱动。ParaHelp 慷慨地公开了其核心 Prompt 之一,让我们得以一窥究竟。

Image

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 16px;word-break: break-all;min-height: 20px;">这份 Prompt 首先给人的印象是「长」和「细致」,展开足有六页之多。其核心设计理念包括:

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 16px;word-break: break-all;min-height: 20px;">这类为垂直领域 AI 智能体设计的 Prompt 通常被视为公司的核心知识产权。他还指出,实际应用中,Prompt 会分为不同层次:

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 16px;word-break: break-all;min-height: 20px;">围绕 Prompt 工程的工具开发存在大量创业机会,例如自动从客户数据集中提取最佳范例并集成到 Prompt 工作流中,从而避免手动操作。

元提示 (Metaprompting):让 Prompt 自我进化

一个令人兴奋的趋势是「元提示」(Metaprompting)。Garry 将其比作 1995 年的编程,工具尚不完善,但潜力巨大。元提示的核心思想是让 Prompt 动态地生成自身更好的版本。

高质量范例的力量

除了元提示,提供高质量范例也是提升 LLM 输出的关键。比如一家名为 Jazzberry 的公司,通过向 LLM 输入大量只有专家级程序员才能解决的复杂代码缺陷(如 N+1 查询)范例,来训练模型自动发现代码中的 Bug。

Image

这种「授之以渔不如授之以例」的方法,能帮助 LLM 理解和处理难以用文字精确描述的复杂任务,类似于编程中的「测试驱动开发」(TDD)。

如何避免 LLM 一本正经地胡说八道

LLM 有时会为了满足输出格式要求而「一本正经地胡说八道」,即产生幻觉。因此,必须为 LLM 提供一个「逃生出口」(escape hatch)。

评估 (Evals) 为王:真正的护城河所在

尽管 Prompt 本身非常重要,但评估 (Evals) 才是这些 AI 公司真正的「皇冠上的明珠」和数据资产。ParaHelp 之所以愿意公开其 Prompt,部分原因在于他们认为,没有评估,就无法理解 Prompt 为何这样设计,也难以对其进行改进。

Garry 对此深表赞同,他认为,对于垂直领域的 AI 和 SaaS 公司而言,获取高质量评估数据的能力至关重要。这需要深入理解特定用户的真实工作流程,例如,「你必须亲自坐在内布拉斯加州的拖拉机销售区域经理旁边,了解他关心什么,他的激励机制是什么,他如何处理发票和保修问题。」将这些一手观察转化为具体的评估标准,才是真正的价值所在,也是初创企业对抗「我们只是套壳公司」质疑的有力武器。这正是创业公司的「护城河」。

创始人即「前线部署工程师」(FDE):深入用户场景是制胜关键

这种对用户场景的极致洞察,引出了「创始人即前线部署工程师」(Founder as a Forward Deployed Engineer, FDE) 的理念。Garry 曾就职于 Palantir,他解释说,FDE 的概念源于 Palantir 将工程师直接派往客户(如 FBI 探员)的办公室,与他们并肩工作,理解其真实需求和痛点,并将这些洞察迅速转化为可用的软件解决方案。

Image

大模型「个性」差异:因材施教的 Prompt 艺术

一个有趣的观察是,不同的大模型似乎有各自的「个性」。Diana 提到,Claude 通常被认为更「乐于助人」且易于引导,而 Llama 则可能需要更多明确的指令,更像是在与一个开发者沟通,这可能与其 RLHF 阶段的训练程度有关。

Harj 分享了他们在使用不同模型进行投资者评分时的经验。他们为 LLM 提供了评估标准 (rubric),要求输出一个 0-100 的分数。

Garry 指出,这种差异对于评估复杂情况(如判断一个投资者是否值得接受其投资)非常有用。有些投资者流程无可挑剔,而另一些可能能力很强但因事务繁忙而显得反馈缓慢。LLM 在处理这类细微差别时,其「调试信息」和最终判断会非常耐人寻味。

Prompt 工程新认知:编码、管理与「改善」

Garry 总结道,当前的 Prompt 工程,一方面像是回到了 1995 年的编程初期,工具不完善,很多东西尚未标准化,充满了未知的探索;另一方面,它又极像学习如何管理一名员工,需要清晰地沟通目标、期望和评估标准。

更深层次地,这其中蕴含着「持续改善」(Kaizen) 的哲学——这一源于日本制造业、并在上世纪 90 年代助力日本汽车产业腾飞的理念,强调身处流程之中的人才是改进流程的最佳人选。这与「元提示」让 Prompt 自我迭代的思想不谋而合。

我们正处在一个激动人心的新时代。Prompt 工程不再是神秘的「黑箱操作」,而是逐渐演变成一门融合了编码技巧、管理智慧和持续改进理念的复杂艺术。未来,我们无疑将见证更多围绕 Prompt 的创新和突破。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5