Midjourney V7来了！图更美、听得懂人话、渲染还省一半钱

显示全部楼层

等了那么久，V7 终于来了。

在 GPT-4o 带着“图像时代”的锋芒横扫而来之后，Midjourney 的每一个动作，几乎都被放大在显微镜下——

它会怎么回应？会不会跟上？还是就此被远远甩开？

V7 没有喧哗登场，也没宣布什么划时代，但它递出来的东西，我觉得还是值得坐下来细看一看。

这次更新，主要几个变化是这样的：

它的图变得更“有感觉”了——

不是简单的清晰度提升，而是纹理、结构、光感和人物细节都有了肉眼可感的进步。

尤其在人像与复杂场景的处理上，连贯性更强，画面少了“拼贴感”，多了些呼吸。

语言理解也有进步。

不像过去那样非得精雕 prompt 才能画出接近图，现在用更自然的语言去描述，它也能抓住大意。

当然，它还没做到“你说什么它都懂”，但语义的包容度确实更高了。

这背后还有个小细节值得注意——个性化设置现在默认开启，但需要用户手动“解锁”，过程大约 5 分钟。

意味着 V7 正在尝试打造“每个人的 Midjourney”，而不是统一风格的流水线。

不过我得说一句实话：

它在生成“图中文字”这块，还是没突破。

从 V6 开始，Midjourney 就在“让图里出现准确可读的文字”上栽了跟头。

到了 V7，尽管在语言理解上做了优化，但一旦让它在画面中嵌入句子、品牌名、标语，结果还是熟悉的跑偏——字母错漏、拼写混乱、语义脱节，几乎是常态。

所以看到有用户吐槽“文字生成依然失败”，我其实并不意外。

这是一堵预料之中的墙。

这不只是一个 bug，更是一种路径上的限制。

Midjourney 是从“图像”出发训练的，它没有真正经历过“语言建模”的学习过程，自然也无法像 GPT-4o 那样精准控制字词的输出。

Midjourney 不是语言模型，它的路径决定了它更擅长“画意境”而不是“读语言”。

它不是没尽力，而是压根没把“字”当作第一语言。

Midjourney 画得了诗意，却写不出一句清晰的字。

这堵墙，从 V6 就在那里，只是这次，大家期待它能翻过去——

结果它还是绕开了。

但就在这样的技术现实下，它推出了一个我非常关注的新功能：

草稿模式（Draft Mode）。

虽然我还没测试过，但从用户的描述来看，它像是一次创作体验上的轻盈革命：

一半价格，十倍速度，还能直接用语音生成图像。

你不再需要构思完整句子，只要开口说，它就开始画了。

有用户说，

“你只需要对 AI 说一句话，梦想就会在眼前展开。”

我相信这句话不是夸张，而是一种新的“创作姿态”：

你不再被 prompt 拖住，也不需要追求完美起笔，只是想先画出来看看，草稿模式就成了那个“试着开始”的起点。

这种轻盈感，我很期待亲手试试。

哪怕它现在还不完美，但从方向上来说，它确实在往“理解人”的路上走。

未来 60 天，官方还会每一两周持续更新，像是角色与物体参考图、风格个性化、Moodboard 调整、SREF 控制等等，慢慢把 V7 的轮廓补全。

Midjourney 没有加速赶路，但它在认真打磨脚下的砖。

在这场关于“图像工具未来形态”的竞赛里，它选择的路线，也许不是最快，但可能更有自己的味道。