链载Ai

标题: webscraper: 用于在RAG应用中将链接转成LLM友好的文本 [打印本页]

作者: 链载Ai    时间: 昨天 09:29
标题: webscraper: 用于在RAG应用中将链接转成LLM友好的文本

项目简介

抓取网页,将其转换为 Markdown,并增强 AI 搜索应用程序。

用于在RAG应用中将链接转成LLM友好的文本,也是http://zbyai.com 应用中的一个依赖模块。

原理:使用无头浏览器或者直接GET请求,然后用Readability优化,然后html转markdown。


运行

若要运行此项目,需要创建config/dev.yaml配置文件。您可以从config/temp.yaml中复制模板。

然后,使用以下命令直接在本地计算机上运行项目,要求安装 Chrome:

makedev

在浏览器中打开以下 URL:

http://127.0.0.1:4090?u=https://github.com/zzzgydi/webscraper

或者你可以将它与 curl 一起使用:

curl-XPOST-H"Content-Type:application/json"\-d'{"url_list":["https://google.com"]}'http://127.0.0.1:4090/v1/scrape


这将启动服务器并将日志输出到output/log目录。



部署

ws://chromedp:9222创建一个config/prod.yaml文件,并在运行以下命令时将 Chromeremote_url设置为:

dockercomposeup







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5