Qwen2-VL：阿里开源新型世界领先视觉智能体，主打人类级别任意分辨率图像处理

显示全部楼层

阿里云又来炸场了！他们刚刚开源了新一代视觉语言模型Qwen2-VL，而且一口气发布了20亿参数和70亿参数两个版本，还开放了最强720亿参数版本的API！这波操作简直6到飞起！?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(15, 76, 129);">Qwen2-VL 究竟有多牛？

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">看得清，看得懂：Qwen2-VL 在各种视觉理解任务上都取得了 SOTA 成绩，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等等。无论是图像分辨率还是长宽比，都难不倒它

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">20分钟长视频也不怕：Qwen2-VL 能理解超过 20 分钟的视频，可以用来做高质量的视频问答、对话、内容创作等等

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">可操作手机、机器人等的Agent：Qwen2-VL 还能跟手机、机器人等设备结合，实现自动操作！它强大的推理和决策能力，加上对视觉环境和文本指令的理解，让它成为真正的“智能管家”

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">多语言支持，全球用户都能用：除了英语和中文，Qwen2-VL 现在还支持识别图像中的多种语言文本，包括大部分欧洲语言、日语、韩语、阿拉伯语、越南语等等，真正做到了面向全球用户！

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">70亿参数以下，Qwen2-VL 就是最强的！而且，为了让 Qwen2-VL 能够在手机等移动设备上运行，阿里云还首次发布了 20 亿参数的小型视觉语言模型 Qwen2-VL-2B

想体验 Qwen2-VL 的强大功能？

博客：

https://qwenlm.github.io/blog/qwen2-vl/

GitHub：

https://github.com/QwenLM/Qwen2-VL

Hugging Face：

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

ModelScope：

https://modelscope.cn/organization/qwen

Qwen2-VL 成功的三个秘诀：

1.Naive Dynamic Resolution 支持：Qwen2-VL 可以处理任意分辨率的图像，并将它们映射成动态数量的视觉token，从而保证模型输入和图像信息的一致性。这就像人类的视觉感知一样，无论图像清晰度或大小如何，都能轻松识别

2.多模态旋转位置编码（M-ROPE）：通过将旋转位置编码分解成时间、空间（高度和宽度）三部分，M-ROPE 使 LLM 能够同时捕捉和整合一维文本、二维视觉和三维视频的位置信息，让模型更全面地理解多模态信息

3.数据为王！Data is all you need

要访问 Qwen2-VL-72B，暂时通过以下方式使用官方 API