抓取网页,将其转换为 Markdown,并增强 AI 搜索应用程序。
用于在RAG应用中将链接转成LLM友好的文本,也是http://zbyai.com 应用中的一个依赖模块。
原理:使用无头浏览器或者直接GET请求,然后用Readability优化,然后html转markdown。
若要运行此项目,需要创建config/dev.yaml配置文件。您可以从config/temp.yaml中复制模板。
然后,使用以下命令直接在本地计算机上运行项目,要求安装 Chrome:
makedev
在浏览器中打开以下 URL:
http://127.0.0.1:4090?u=https://github.com/zzzgydi/webscraper
或者你可以将它与 curl 一起使用:
curl-XPOST-H"Content-Type:application/json"\-d'{"url_list":["https://google.com"]}'http://127.0.0.1:4090/v1/scrape这将启动服务器并将日志输出到output/log目录。
ws://chromedp:9222创建一个config/prod.yaml文件,并在运行以下命令时将 Chromeremote_url设置为:
dockercomposeup
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |