Firecrawl：3.9K Star！一键将网站转换为LLM可读的Markdown或结构化数据

显示全部楼层

项目简介

Firecrawl 是一个由 Mendable.ai 和其社区共同开发的 API 服务，它能够将整个网站转换成适用于大型语言模型（LLM）的 Markdown 或结构化数据。

该服务通过爬取网站及其所有可访问的子页面，提供干净的数据，无需网站地图。

使用场景

内容转换：将网页内容转换为 Markdown 或结构化数据，便于进一步处理和分析。
数据提取：从网页中提取所需数据，例如文章标题、评论、元数据等。
搜索引擎优化（SEO）：通过提取网站数据，分析和优化网站的 SEO 表现。
内容聚合：聚合多个网站的内容，创建综合性的信息平台。
自动化文档生成：自动化生成文档，如用户手册、帮助文档等。

使用方法

使用前提

注册Firecrawl以获取API密钥。
安装必要的软件包，比如Python SDK或Node SDK。

使用方法

1. API调用：

使用API密钥，通过cURL命令行工具或SDK调用Firecrawl API。

2. Python SDK

安装：pip install firecrawl-py
示例代码：

fromfirecrawlimportFirecrawlApp

app=FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result=app.crawl_url('mendable.ai',{'crawlerOptions':{'excludes':['blog/*']}})
forresultincrawl_result:
print(result['markdown'])

Node SDK：

安装：npm install @mendable/firecrawl-js
示例代码：

importFirecrawlAppfrom"@mendable/firecrawl-js";

constapp=newFirecrawlApp({
apiKey:"fc-YOUR_API_KEY",
});

consturl='https://example.com';
constscrapedData=awaitapp.scrapeUrl(url);
console.log(scrapedData);

API功能

Crawling：爬取一个URL及其所有可访问的子页面，返回一个作业ID以检查爬取状态。
Scraping：抓取一个URL并获取其内容。
Search（Beta）：搜索网络，获取最相关结果，抓取每个页面并返回Markdown。
Intelligent Extraction（Beta）：从抓取的页面中提取结构化数据。

注意事项: 用户在使用Firecrawl进行抓取、搜索和爬取活动之前，应遵守适用的隐私政策和网站的使用条款。