阿里最新Qwen VLo，多角度测评来了

显示全部楼层

笔者将基于ChatGPT、Qwen VLo使用相同提示词生成图片，在此基础上使用Qwen2.5-VL-32B-instruct从美学质量、指令遵循度、真实感角度进行评价。测试从复杂指令理解与多重任务、复杂指令理解与多重任务、图像检测及标注、多语言文字生成图像等角度展开，笔者人为加大了难度，测评结果仅代表大模型与个人观点，不代表雇主观点。

测试1：复杂指令理解与多重任务

生成照片，图中男人带着黑帽子在地铁上看报纸，旁边是一个美丽的带红色墨镜年轻女性，还有一只=哈士奇，地铁的窗外是自由女神像，地铁的站牌显示“Qwen VLo”

左：ChatGPT，右：Qwen

Qwen2.5-VL-32B-instruct测评结果

美学质量

第一张图片：构图平衡、色彩协调、细节丰富，整体氛围沉稳、视觉完成度高。
第二张图片：构图简单、色彩单一、细节粗糙，氛围轻松但略显平淡。

指令遵循

第一张图片：严格对应提示词的所有元素（人物、动作、服饰、动物、地铁场景等），无明显缺漏。
第二张图片：虽然包含主要元素，但细节存在偏差，如站牌文字不完整、人物表情不符合描述。

真实感

第一张图片：人物表情自然，环境与光影真实，动物细节处理精致，整体接近真实摄影。ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;background-color: transparent;font-size: 15px;">
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;background-color: transparent;font-size: 15px;">第二张图片：人物表情夸张、环境简化、动物不真实，画面平面感强。

测试2：图像生成

生成摆满水果的桌面

Qwen2.5-VL-32B-instruct测评结果

笔者注：本次生成结果，显然是Qw-en更胜一筹，以下是Qwen2.5-VL-32B-instruct测评结果，仅供参考

美学质量：

维度	第一张图片	第二张图片
构图	果品分布对称、有序，整体构图均衡	摆放较为随意，缺乏明显的对称或结构
色彩搭配	多种水果色彩分明且相互衬托，整体色调明快	色彩丰富但偏暖，融合度较高，鲜艳度略低
细节处理	各类水果细节清晰（草莓籽、葡萄光泽等），层次感强	多数水果细节到位，部分（如橙子）光影处理较简单
桌面与背景	木质桌面纹理清晰，增强画面整体协调性	浅色桌面背景简洁，但纹理表现略少

指令遵循：

维度	第一张图片	第二张图片
多种水果是否齐全	包含葡萄、蓝莓、草莓、苹果、香蕉等丰富种类	包含苹果、橙子、葡萄、香蕉等，种类略少
是否“摆满”桌面	桌面密集覆盖水果，搭配碗盘，分布整齐	桌面水果分布较松散，部分直接置于桌面
是否使用桌面容器	多种容器，辅助整齐摆放	仅部分使用容器，整体布局较自由
桌面类型是否匹配	木质桌面，纹理清晰	浅色木质桌面，材质符合但细节较简略

真实感：

维度	第一张图片	第二张图片
水果细节	细节逼真，质感良好，如透明感、光泽、颗粒感等	多数细节表现良好，部分水果（如橙子）质感处理较弱
桌面质感	木质纹理清晰，色彩自然	桌面表现自然但细节略少
光影效果	高光与阴影过渡自然，增强立体感与材质表现	光影较为柔和，立体感与细腻度略逊一筹