今早看到了百度 文心大模型4.5和X1 可以免费使用啦!之前说4月1号免费,这提前半个月,估计是最近大模型厂商一直都在开源,压力太大了!

话说回来,2025年是真卷,几乎每一周都有新东西,也都有爆款。之前我是随机更,现在都变成日更啦!
文心4.5是个多模态大模型,可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型,但支持多模态和工具使用,具有更强的理解、规划、反思、进化的能力。
从榜单上看效果有点猛,


同时早上群里就有人问,真实效果如何,现在给大家带来一波实测!

开始开始!所有测试为了验证模型基础能力,均关掉检索功能!
之前大家都应该知道我写了一篇大模型无法做表格识别的东西,先来测测文心的表格解析效果。
测试样例来自多模态大模型在表格解析任务上效果如何?亲身经历全是泪!

解析结果不正确。


这个比上一个有一些难度,主要是字多了一点,然后合并单元的不错有交错(6、7行的2、4列),文心4.5这个也没对。


这个更难了,表格结果错综复杂,文心4.5也没对。

如果之前看过我的对Qwen2.5-VL的测试,就知道Qwen2.5-VL在表格解析上很强,都对。不过,之前GPT4-o和Claude、Gemini都没对的!!!
下面看看文心4.5的数学能力,

结果正确,


结果第一个正确第二个错误啦,C方程为;


下面看看文心4.5的信息抽取、计算、理解能力,
input:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和

结果:正确

input:请逐步详细分析,这张图片里是有两只狗,对吗
结果:完全正确

input:请逐步详细分析,输出图片中的文字内容

结果:错了一个字,但是这种连笔确实还比较难,之前测试的其他模型也基本没对。
input:请逐步详细分析,两顿饭我花了多少钱


结果:完全正确

接下来是色盲测试,详细看开源多模态大模型是红绿色盲吗?,

图1结果正确,

图2结果错误,

只能说测试通过一半。
整体多模态图片理解上的测试效果我觉得一般,在表格解析上没有Qwen2.5-VL-72B好,其他的基本上都差不太多。
下面是纯文本上的能力,看看文心4.5和文心X1效果如何。说一句X1太能think,每道题都等了好久!
验证满血R1的题目:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。
说明:答案为√3/3,4.5结果正确,X1结果错误,X1应该在思考过程中没有思考完强制截断了。


- 大数计算:178939247893 * 299281748617 =?
说明:53553251005627872913981,4.5对了,X1推了10min之后,回答竟然偷懒了,只给了约等的答案。不过DS我当时测试是不对的。


- 那道集伦理、生物、数学与一身的题目:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?
说明:虽然不对,但X1回答出了色盲,答出了1/3,还是满强的。


说明:不错不错,都对了,没说是熟蚝,哈哈哈!


说明:结果正确,依旧纯水~


弱智吧是考不到文心的,是不是因为弱智吧本来就是百度的~~
- 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
说明:结果正确,相信评论区依旧有人对线,小红你怎么就认为是女生!!!


- 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
说明:回答错误,依旧老鹰不会飞~各大模型好像都错了,经典中的经典~


- 借鉴江树的case,用黑白手绘风格说明什么是机器学习的本质,用SVG+CSS实现,所有代码放到一个HTML中。
说明:画的有点丑了,4.5有点乱,X1是个动图还行,但有点丑,SVG画图Claude还是神级别的存在,没办法。


说明:感谢4.5写的比X1好,X1混淆了很多内容,但感觉文笔都没有DS好。


说明:还行,有那味儿了!!

