返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

webscraper: 用于在RAG应用中将链接转成LLM友好的文本

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 09:29 |阅读模式 打印 上一主题 下一主题

项目简介

抓取网页,将其转换为 Markdown,并增强 AI 搜索应用程序。

用于在RAG应用中将链接转成LLM友好的文本,也是http://zbyai.com 应用中的一个依赖模块。

原理:使用无头浏览器或者直接GET请求,然后用Readability优化,然后html转markdown。


运行

若要运行此项目,需要创建config/dev.yaml配置文件。您可以从config/temp.yaml中复制模板。

然后,使用以下命令直接在本地计算机上运行项目,要求安装 Chrome:

makedev

在浏览器中打开以下 URL:

http://127.0.0.1:4090?u=https://github.com/zzzgydi/webscraper

或者你可以将它与 curl 一起使用:

curl-XPOST-H"Content-Type:application/json"\-d'{"url_list":["https://google.com"]}'http://127.0.0.1:4090/v1/scrape


这将启动服务器并将日志输出到output/log目录。



部署

ws://chromedp:9222创建一个config/prod.yaml文件,并在运行以下命令时将 Chromeremote_url设置为:

dockercomposeup


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ