前两天,我们团队小伙伴一直在获取蝴蝶号的一些数据。主要用的是传统的一些方法。搞完后我突然想起来,获取数据这件事,能不能用AI识图的功能来做呢?毕竟,目前能展示到屏幕上的数据,都能够被AI看到。获取数据需要下拉、翻页,这不是障碍:要么手动截图,要么录屏之后自动截图,这整个过程也可以自动化。这证明了用AI识图来获取数据,目前在一些场景下是能跑通的。这就一定程度上,改变数据抓取这个行业,比如传统的Python、rpa等方法。为了进一步看看这件事情目前的边界在哪里,我对目前6个主流的大模型进行了一次识图抽取数据的测试。这个任务是,获取某个视频号主页的视频标题以及点赞量(电脑端)。我们可以看到,主页下面有12个视频,每个视频是小方格,下面是标题,里面的小心心旁边就是点赞量。 标题还是比较显眼和清楚的,但是这个点赞数据展示得比较小。我花了三个小时,使用GPT4o、claude3、kimi、文心一言、通义千问、gemini进行了逐个测试。在此前那篇文章中,kimi显示了较强的识图获取数据的能力,这次效果如何?prompt: 列出这个主页中各个视频的标题、主题以及点赞量。请注意,阅读量是指有小心心的图标旁边的数字。 改进prompt1: 识别并列出这个主页中各个视频的标题、主题以及点赞量。 改进prompt2: 这个截图中有12个视频,每个视频是一个小方格。列出其中各个视频的标题、点赞量。请注意,点赞量是指有小心心的图标旁边的数字。 1、待提取的内容与背景颜色较难区分的时候,AI也难以识别,这点跟人类一样,且能力远不如人类。
prompt: 列出这个主页中各个视频的标题、主题以及点赞量。请注意,点赞量是指有小心心的图标旁边的数字。 - 标题:可以提取标题,但12个视频只提取了9个的标题;
- 点赞:能识别到点赞数据,但是,点赞数据张冠李戴,A视频的点赞数据被放到了B视频;且部分点赞数据没被识别。
视频顺序:不正确 1、通义千问的识图取数的能力略高于Kimi,但Kimi可以一次处理多张图,通义千问一次只能看一张; 2、依然有Kimi存在的空间错乱问题,无法正确对应和排序。GPT4o是openai最新模型,全网刷屏,真实能力如何?来。prompt: 列出这个主页中各个视频的标题、主题以及点赞量。请注意,点赞量是指有小心心的图标旁边的数字。 结论:识图能力目前各大模型中最强。能正确识别上下左右,已经有一定的空间感知能力,能将视频与点赞数对应,能做排序。___________________________________根据对6大模型的测试,整体看来,在本场景中的识图能力如下:GPT4o > claude-3-sonnet> 通义千问 > Kimi > gemini1.0 >文心一言3.5 |