|
昨天微软推出最小大模型phi3,小小的身材,大大的能量,3.8B的体量号称可以媲美Mixtral 8x7B和GPT-3.5。今天就来实测一下,并和llama3做个对比。
一、先来个提示词优化。 (phi3): 
据说phi3是不支持中文的,但遇到中文的输入,它还是将答案翻译过来了,可以看出中文的表达还是比较生硬,有逐词翻译的痕迹。
对比一下(llama3): 
反而是llama3,没有很智能地用中文回复。 对提示词优化的要求本身并不高,只要能够发挥想象力,场景多样,细节足够丰富就可以了,算是达标了。 二、抒写散文。
生成式大模型自然离不开文章的撰写,现实场景也会大量应用到,来看下。 (phi3): 
表达非常的English,但还是不乏情感与诗意的。 (llama3): 
依然是英文输出,优点是不生硬地翻译表达起来就很自然。 三、鸡兔同笼问题。
测完情商,考验一下智商也是要的。
(phi3): 
没毛病,答案是对的,小学生的题总不能解错吧。 (llama3): 
这个输出英文就没所谓了,能看到答案48和1,测试通过。可以看到,llama3是走生动可爱风的,非常善于运用表情图标。 四,代码输出。 最后自然少不了写一段代码了,依照惯例,写个时钟。同时笔者用这个功能来测试一下两者的性能差异。
(phi3): 
(llama3): 
(phi3): (llama3): 代码一次生成没有修改过就直接能用,视频也没有剪辑过,phi3用时15秒而llama3用时18秒,phi3确实不是浪得虚名。
总结: 从以上的测试场景来说,phi3的小体量确实给出了大惊喜,从纯英文的角度来说,足够应付日常的应用,加上多语言的支持后,对中文用户来说也是麻雀虽小,五脏俱全。当然,大模型的应用场景远不止这四个,还有更多的层次有待对比测试。 从llama3-8B到phi3-3.8B,一个个小模型的诞生使PC本地化部署乃至移动端部署变得轻而易举,既最大限度地提升交互性能,还保证了个人化和安全性。这不能叫卷,卷是无效率的瞎忙,而大模型的进步日新月异,一日千里。期待接下来更多的惊喜。 OK,就到这。
|