返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

读屏不靠截图:ChatGPT 客户端的原理、实现与边界

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:53 |阅读模式 打印 上一主题 下一主题

ChatGPT 的 Mac 客户端现在可以连接常用的一些应用程序,比如 VSCode、XCode、iTerm2,这样可以直接就这些应用程序上的内容去提问,效果很棒! 

地址:https://openai.com/chatgpt/desktop 


它基于原生应用程序的能力以及加上用户对它的授权,可以获取到这些应用当前窗口的内容,然后将窗口的内容整理成提示词一起提交到 GPT,这样 GPT 就可以根据窗口内容来处理了,提示词类似于下面这样: 

<windows><instructions>
You are being provided with textfield content from windows the user has asked you to focus on.
</instructions><window><title>Visual Studio Code</title><app_name>Code</app_name><textfields><textfield id="窗口文件名">
【窗口内容】
</textfield></textfields></window></windows>


 

通过请求分析,可发现:它不是通过截图获取内容的,是直接获取窗口完整内容的,比如VSCode,需要额外安装插件以获取完整文本,所以窗口被遮挡也没关系。 



具体的请求分析

可以将鼠标悬停在 ChatGPT Mac 客户端横幅上,查看 ChatGPT 发送哪些内容。 

 

在历史消息中,鼠标悬停在消息顶部,也可以看发送过的内容。 



工程技巧与边界

仔细查看,发现:

  • 使用编辑器和 IDE(Xcode、VS Code、TextEdit)时,ChatGPT 会包含打开的编辑器窗格的全部内容,直到达到最大长度限制被截断。

  • 如果在编辑器中选择文本,ChatGPT 会重点关注选中的内容,窗口的全部内容仍然会包含在上下文中。

  • 使用命令行窗口(Terminal、iTerm)时ChatGPT 包含最后 200 行内容。如果在窗口中选中文本,ChatGPT 将重点关注所选内容以及相邻文本,直至截断限制。

 

这个功能确实不错,但要说能替代 Cursor 那还太扯了: 

  • 它不是项目级别的,只是窗口级别的,编程是要用到整个代码库的

  • 它的结果不能自动更新回窗口,需要手动复制粘贴

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ