MiniMax M2.1 终于正式发布了。这一代模型的核心目标,是在更多编程语言和日常办公场景里做到"真正可用",并在这些领域把能力拉到行业顶级水准。
官方介绍中提到,团队系统性地增强了 M2.1 在多种编程语言上的表现,尤其是对原生 Android 和 iOS 开发能力做了重点加强。相比上一代 M2,M2.1 的回复更加简洁清晰,不再只是"代码更强"——在日常对话、技术说明和写作场景中,回答质量也有明显提升。
从公开数据来看,M2.1 在 SWE-bench Verified 上的得分已经达到 74%,冲到国产模型第一的位置。在软件工程相关的多个榜单,特别是多语言相关的评测中,它的成绩甚至超过了 Sonnet 4.5 和 Gemini 3 Pro,与 Claude Opus 4.5 的差距也在不断缩小。
MiniMax 还构建了一个全新的VIBE 基准,覆盖 Web 端、仿真环境、Android、iOS 和后端等多个维度。在这一整套基准下,M2.1 的总体表现已经非常接近 Opus 4.5,并且在所有子集上都明显优于 Sonnet 4.5。
如果你特别关心编程能力,这一代是非常值得认真测试的一版。
MiniMax-M2.1 和 MiniMax-M2 一样,支持在多个软件里面使用。
我这次主要是在 Cursor 的 Plan 模式下使用 M2.1。
Plan 模式会先梳理任务、列出步骤,再逐步执行。对复杂项目或者调试比较棘手的 Bug 时,帮助非常大。
MiniMax 官网上有非常详细的文档,介绍如何在 Cursor 里配置它的 API。
核心的几步是:
M2.1 在 Web 端的 UI 和交互上,给了我很多惊喜。
在没开 Plan 模式、也没用前端优化技能的情况下,我让它生成了一个理发沙龙着陆页。最终出来的是一个黑金配色的页面,整体布局和配色都很高级。
M2.1 还帮我生成了一组“催眠数学”动画:包括分形螺旋、粒子漩涡、彭罗斯三角、玫瑰曲线花园等多种风格。动画不仅好看,还可交互——点击、拖拽、键盘都能调参数,实时看变化。
我还让它生成了一套“奥德赛号主控面板”的界面。这里我结合了前端 skill,再加上 Cursor 的 Plan 模式,让 M2.1 负责布局和交互逻辑。
最终生成的界面 UI 非常美观,有“启动扫描”“触发红色警报”等按钮。点击之后,会出现类似科幻片那种动态效果。
MiniMax-M2.1 还帮我做了一个 AI 教程类的页面。我在 AGENTS.md 里特意强调'不要用太普通的字体',它也很好地遵循了,选了更有特色的字体。
接下来是一个偏三维场景的实验:我给它的提示是 Minecraft 风格,要有方块人,背景是春晚聚会场景,电视机上要写着“2026 春晚”,桌上要有饺子等等。
电视和电视柜的位置、质感都不错。但人有点嵌进桌子里,饺子也"飘"在桌外,说明它在空间关系上的理解还有待提升。
在生成这个场景的过程中,M2.1 会主动反问我:
我觉得“加 GIF 录制”的提议非常好,就让它实现了一键录制 GIF 的功能:点击开始录制,几秒后自动停止,可直接下载 GIF。
还有一个是“绵羊理发店”的场景。这道题里我给的提示词非常长,元素非常多,目的就是想测试 M2.1 在指令遵循和空间理解方面的能力。
资质证书、窗外透进来的光、理发椅和工具细节都不错。不过围布没盖好,小羊和椅子的距离也不太自然。
这是 M2.1 生成的"兵马俑跳街舞":
兵马俑表演 popping、locking、breaking、Waving,最后还有 freestyle。
同样,让我惊喜的是它对传统文化的理解。
下方还有三个小标签,介绍兵马俑的材质:
这也是我近期测过的非常有趣的兵马俑街舞画面。
这是 M2.1 生成的数字书画应用。页面很美观,笔架有三种笔,墨水浓度和颜色都可调。敦煌纹饰做得相当好。
整体 UI 的配色、文案和交互,都能看出它对中国文化的理解:比如下方有“落款装裱”。
接下来重点讲一个完整项目:一个由 M2.1 帮我从零构建的 AI 幻灯片图片生成器。这是一个全栈应用,我已经把它开源了。
这个应用的核心功能是:
应用里内置了 30 多种风格,还提供了右侧的“风格设置”按钮,可以新增分类、自定义风格提示词。
图片数量可自动或手动指定,比例综合了即梦和香蕉 Pro 的常见尺寸。
AI 在分好段之后,还可以做一次“评估与优化”:
还可以手动合并多段内容,节省生图成本。合并后可自己修改提示词,或交给'提示词助手'做去重和润色。
确认好分段和提示词之后,你可以:
不满意可调整提示词重新生成,应用会保留不同版本方便对比。所有图片支持一键下载。
从零到完成,包括多轮修 Bug 和优化,我大概花了 5 小时,编码全程用 M2.1。
遇到各种问题,我也让 M2.1 逐一调试。
遇到这类问题时,我通常做两件事:
它在工具调用和自动调试这块的表现非常好,基本上都能快速定位问题并修复掉,比我自己刷新页面、看日志、改代码要高效很多。
我给的 PRD 功能较多,M2.1 大概完成了 90%。“评估功能”——被遗漏了。页面上对应的按钮只显示“还在开发中”。
从整体效果来看,它的指令遵循已经算很不错了:在那么长的需求里只漏掉一个功能点。
在整个应用的构建过程中,分享一点小心得:
无论是从零构建应用,还是修复棘手的 Bug,都建议先开启 Plan 模式。
最后还有个小 tip:使用 MiniMax 的编码套餐。
以上就是今天视频的所有内容,这次 M2.1 无论在前端 UI 还是全栈应用构建方面,都有了明显的提升。国产模型与 Claude 顶级模型的差距越来越小了。
推荐大家体验!
| 欢迎光临 链载Ai (http://www.lianzai.com/) | Powered by Discuz! X3.5 |