4.6K star！Jina AI开源神器，一键优化网页让AI更懂你！ - 链载Ai

在这个信息爆炸的时代，大型语言模型（LLM）正在成为我们获取、处理和理解信息的重要工具。然而，直接将网页内容输入到LLM中存在诸多挑战，如网页结构复杂、加载缓慢等问题。

今天开源君给大家介绍一个非常酷的开源项目 - Reader，可以极大改善大型语言模型（LLM）的输入质量。

简介

Reader是一个 Jina AI 开发的专为LLM设计的创新工具，它可以将网页信息转换为LLM友好的格式，如Markdown。通过去除网页中的冗余HTML标签和代码，Reader保留了核心文本内容，使得LLM能够更容易地解析和理解网页信息。

主要功能有两个：读取和搜索。

读取（Read）：将 URL 转换为 LLM 友好的输入。
搜索（Search）：允许 LLM 访问来自网络的最新世界知识。

此外，Reader还支持流模式，能够处理加载缓慢的网页，并逐步获取内容。

目前在Github上面收获了4.6K star！

性能特色

免费且稳定：Reader API 是免费的，并且作为 Jina AI 的核心产品之一，得到了积极的维护。
图像阅读：支持图像阅读，能够为缺少 alt 标签的图像自动生成标题，并以特定的格式添加到输出中，帮助 LLM 理解图像内容。
LLM友好的网页输入：Reader能够将任意网页URL转换为LLM易于理解的格式，如Markdown。
流模式支持：Reader提供流模式，可以持续获取网页数据，提供更完整的输出，解决网页加载缓慢的问题。
请求头参数个性化：Reader提供多种请求头参数，允许用户根据自身需求灵活控制产品行为。
应用场景广泛：Reader可以应用于RAG系统、智能问答、信息提取、文本摘要等多种场景。

安装使用

本地开发的话，需要先安装 Node v18 和 Firebase CLI，然后依次执行命令

gitclonegit@github.com:jina-ai/reader.git
cdbackend/functions
npminstall

快速使用

最简单的使用方法是，直接访问 Jina AI 提供的在线演示页面：https://jina.ai/reader#demo，可以立即体验 Reader 的功能而无需进行任何安装。

通过转换之后，AI回答和识别的速度，准度都大大提高。

也可以直接使用添加前缀的方法快速使用。

比如，使用读取模式，在浏览器地址栏中输入 https://r.jina.ai/，后面跟上想要转换的网页 URL。例如，要转换 Wikipedia 上关于人工智能的页面，可以访问：https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

这样可以让 LLM 更好的提取信息

使用搜索模式，在浏览器地址栏中输入 https://s.jina.ai/，后面跟上搜索查询。例如，搜索 "2024 US presidential election"，可以访问：https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

使用 Reader API

基本用法

高级用法

如果想体验 Reader 的流式模式，可以在命令行中使用 curl 命令。

curl-H"Accept:text/event-stream"https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

JSON 模式体验，使用 curl 命令设置 Accept 头为 application/json：

curl-H"Accept:application/json"https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

小结一下，Reader是 Jina AI 开发的一个功能强大且易于使用的工具，它通过简化网页内容的获取和转换过程，极大地提升了 LLM 应用的效率和准确性。