有点东西！Qwen开源会写中文的生图模型Qwen-Image

显示全部楼层

会写中文，这基本上是开源图片生成模型的独一份了。

这次开源的Qwen-Image 的最大卖点是“像素级文字生成”。它能直接在像素空间内完成排版：从小字注脚到整版海报均可清晰呈现，且同时支持英文字母与汉字。

以下图片均来自官网的生成演示。

官方在技术博客中称，它专为复杂文字渲染与精准图像编辑而生，将生成与编辑两条链路纳入统一架构，意在向开发者与设计师提供“一站式视觉创作底座” 。

基准显示，在 LongText-Bench、ChineseWord 等评测里，英文渲染可比肩 GPT-4o，中文更是当前开源最佳，不管是人物风景还是字体色彩，整体上都饱和度非常的高，比较的悦目。

海报、招贴、信息图等场景下文字边缘锐利、排版稳定，很少会出现叠图层常见的错位或锯齿问题。

在图像能力上，模型仍保持全能属性。得益于扩散-Transformer 结构与多任务训练，它可在写实、印象派、二次元、极简等风格间自由切换。

宽高比与分辨率设定灵活，可覆盖社媒封面、竖屏短视频首图乃至 4K 宽幅海报，很适合于作为自媒体宣传材料使用。

里面最值得提的就是它的丰富的“正向/负向提示词魔法”，进一步降低了非专业用户的上手门槛，基本上不需要特别复杂的提示词就可以生成比较精美的图片。

除了生成，Qwen-Image 还原生集成了精准编辑工具链：支持文字替换、物体增删、风格迁移、姿态调整和超分辨率放大。

简单在其官网试用了一下，整体的风格和效果还不错，主体艺术是没有什么问题，字体都比较的锐利清晰，但如果是遇到小字，可能会产生变形无法辨认。

目前模型采用 Apache-2.0 许可证发布，权重已同步上传至 Hugging Face 与 ModelScope，并在 GitHub 提供示例脚本。

部署要求方面，Qwen官方建议使用 transformers≥4.51.3 与 diffusers 最新版，一张 40 GB 显存的 GPU 即可跑通推理；若想微调，可按需求水平扩展多卡或使用 A100 80 GB 以上设备