链载Ai

标题: 微软开源OmniParser V2,直接将DeepSeek-R1变成使用电脑的 AI Agents~ [打印本页]

作者: 链载Ai    时间: 6 小时前
标题: 微软开源OmniParser V2,直接将DeepSeek-R1变成使用电脑的 AI Agents~

微软在其官网上发布并开源OmniParserV2,它可以将任何 LLM 变成能够使用计算机的Agent。可以启用 GPT-4o、DeepSeek R1、Sonnet 3.5、Qwen等来了解屏幕上的内容并采取相关操作。

screen spot pro performance



OmniParser是一款通用屏幕解析工具,可将 UI 屏幕截图解释/转换为结构化格式,以改进现有的基于LLM 的 UI Agent。
训练数据集包括:
该模型中心分别包含基于上述数据集的 YOLOv8 微调版本和 Florence-2 微调基础模型。
OmniParserV2 有什么新功能?
https://huggingface.co/microsoft/OmniParser-v2.0https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/https://github.com/microsoft/OmniParser/tree/masterdemo:http://hf.co/spaces/microsoft/OmniParser-v2







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5