微软在其官网上发布并开源OmniParserV2,它可以将任何 LLM 变成能够使用计算机的Agent。可以启用 GPT-4o、DeepSeek R1、Sonnet 3.5、Qwen等来了解屏幕上的内容并采取相关操作。
https://huggingface.co/microsoft/OmniParser-v2.0https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/https://github.com/microsoft/OmniParser/tree/masterdemo:http://hf.co/spaces/microsoft/OmniParser-v2
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |