返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

无需编码即可抓取数据的智能爬虫工具

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 09:28 |阅读模式 打印 上一主题 下一主题

概述

目前市面上大多爬虫都需要通过使用xpath规则抓取网页上的内容,不论是八爪鱼,神箭手或是其他,使用这类工具虽然可一定程度上做到可视化,但往往都需要一定门槛,同时,还存在致命缺点:三方网站改版,往往需要重写爬虫,那么,我们能否借助人工智能,实现根据我们需求的描述,抓到我们想要的内容呢?答案是肯定的。

体验地址,或点击阅读原文直达:https://spider.sumslack.com

无需编码,直接描述爬虫即可,即可抓取数据。

设计思路

  • 使用爬虫技术抓取网页的HTML内容,支持多个网址

  • 根据HTML切片,并进行文字转向量,通过FAISS存储向量

  • 通过语义检索,搜索出相关的文档切片

  • 设计提示词加上用户的提问,确保通过LLM能准确回答用户爬虫需求对应的数据内容

思考:同一句话,其实交给语义检索和最后一步的问答是需要有所区分的,所以我们将网页需要抓取的描述部分用引号,引号里的内容就是基于语义的文档片段搜索,切分需要用HTML的分隔符,这里使用['<body', '<div', '<p', '<br', '<li', '<h1', '<h2', '<h3', '……', '<footer', '<nav', '<head', '<style', '<script', '<meta', '<title', ''],最后整句话交给LLM大模型时,只需要去掉所有URL地址即可。
思考点

案例展示

  • 抓页面上特定值:如下抓取指定网页的某个行情的数据,截图中展现了提示语和抓取结果:

  • 抓取列表数据:

  • 通过仿真浏览器抓取网页,只需要最前面加个#即可:

  • 根据网页内容提取摘要并翻译成英文:

  • 针对图片上的文字,支持自动版面识别:应算力局限,不对外开放。

使用智能爬虫,让编写爬虫没有门槛



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;list-style: circle;color: rgb(63, 63, 63);">


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">欢迎关注我的公众号“Sumslack团队”,原创技术文章第一时间推送。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ