链载Ai

标题: 文心一言4.5和X1免费,马上安排实测,来看看效果如何! [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 文心一言4.5和X1免费,马上安排实测,来看看效果如何!


今早看到了百度 文心大模型4.5和X1 可以免费使用啦!之前说4月1号免费,这提前半个月,估计是最近大模型厂商一直都在开源,压力太大了!

话说回来,2025年是真卷,几乎每一周都有新东西,也都有爆款。之前我是随机更,现在都变成日更啦!

文心4.5是个多模态大模型,可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型,但支持多模态和工具使用,具有更强的理解、规划、反思、进化的能力。

从榜单上看效果有点猛,

多模态,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
文本,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw

同时早上群里就有人问,真实效果如何,现在给大家带来一波实测!

开始开始!所有测试为了验证模型基础能力,均关掉检索功能!

之前大家都应该知道我写了一篇大模型无法做表格识别的东西,先来测测文心的表格解析效果。

测试样例来自多模态大模型在表格解析任务上效果如何?亲身经历全是泪!

解析结果不正确。

这个比上一个有一些难度,主要是字多了一点,然后合并单元的不错有交错(6、7行的2、4列),文心4.5这个也没对。

这个更难了,表格结果错综复杂,文心4.5也没对。

如果之前看过我的对Qwen2.5-VL的测试,就知道Qwen2.5-VL在表格解析上很强,都对。不过,之前GPT4-o和Claude、Gemini都没对的!!!

下面看看文心4.5的数学能力,

结果正确,

结果第一个正确第二个错误啦,C方程为;

下面看看文心4.5的信息抽取、计算、理解能力,

input:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和

结果:正确

input:请逐步详细分析,这张图片里是有两只狗,对吗

结果:完全正确

input:请逐步详细分析,输出图片中的文字内容

结果:错了一个字,但是这种连笔确实还比较难,之前测试的其他模型也基本没对。

input:请逐步详细分析,两顿饭我花了多少钱

结果:完全正确

接下来是色盲测试,详细看开源多模态大模型是红绿色盲吗?,

图1结果正确,

图2结果错误,

只能说测试通过一半。

整体多模态图片理解上的测试效果我觉得一般,在表格解析上没有Qwen2.5-VL-72B好,其他的基本上都差不太多。

下面是纯文本上的能力,看看文心4.5和文心X1效果如何。说一句X1太能think,每道题都等了好久!

说明:答案为√3/3,4.5结果正确,X1结果错误,X1应该在思考过程中没有思考完强制截断了。

文心4.5
文心X1

说明:53553251005627872913981,4.5对了,X1推了10min之后,回答竟然偷懒了,只给了约等的答案。不过DS我当时测试是不对的。

文心4.5
文心X1

说明:虽然不对,但X1回答出了色盲,答出了1/3,还是满强的。

文心4.5
文心X1

说明:不错不错,都对了,没说是熟蚝,哈哈哈!

文心4.5
文心X1

说明:结果正确,依旧纯水~

文心4.5
文心X1

弱智吧是考不到文心的,是不是因为弱智吧本来就是百度的~~

说明:结果正确,相信评论区依旧有人对线,小红你怎么就认为是女生!!!

文心4.5
文心X1

说明:回答错误,依旧老鹰不会飞~各大模型好像都错了,经典中的经典~

文心4.5
文心X1

说明:画的有点丑了,4.5有点乱,X1是个动图还行,但有点丑,SVG画图Claude还是神级别的存在,没办法。

文心4.5
文心X1

说明:感谢4.5写的比X1好,X1混淆了很多内容,但感觉文笔都没有DS好。

文心4.5
文心X1

说明:还行,有那味儿了!!

文心4.5
文心X1







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5