无需编码即可抓取数据的智能爬虫工具

显示全部楼层

概述

目前市面上大多爬虫都需要通过使用xpath规则抓取网页上的内容，不论是八爪鱼，神箭手或是其他，使用这类工具虽然可一定程度上做到可视化，但往往都需要一定门槛，同时，还存在致命缺点：三方网站改版，往往需要重写爬虫，那么，我们能否借助人工智能，实现根据我们需求的描述，抓到我们想要的内容呢？答案是肯定的。

体验地址，或点击阅读原文直达：https://spider.sumslack.com

无需编码，直接描述爬虫即可，即可抓取数据。

设计思路

使用爬虫技术抓取网页的HTML内容，支持多个网址
根据HTML切片，并进行文字转向量，通过FAISS存储向量
通过语义检索，搜索出相关的文档切片
设计提示词加上用户的提问，确保通过LLM能准确回答用户爬虫需求对应的数据内容

思考：同一句话，其实交给语义检索和最后一步的问答是需要有所区分的，所以我们将网页需要抓取的描述部分用引号，引号里的内容就是基于语义的文档片段搜索，切分需要用HTML的分隔符，这里使用['<body', '<div', '<p', '<br', '<li', '<h1', '<h2', '<h3', '……', '<footer', '<nav', '<head', '<style', '<script', '<meta', '<title', '']，最后整句话交给LLM大模型时，只需要去掉所有URL地址即可。
思考点

案例展示

抓页面上特定值：如下抓取指定网页的某个行情的数据，截图中展现了提示语和抓取结果：

抓取列表数据：

通过仿真浏览器抓取网页，只需要最前面加个#即可：

根据网页内容提取摘要并翻译成英文：

针对图片上的文字，支持自动版面识别：应算力局限，不对外开放。

使用智能爬虫，让编写爬虫没有门槛

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;list-style: circle;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">欢迎关注我的公众号“Sumslack团队”，原创技术文章第一时间推送。