项目简介
Firecrawl 是一个由 Mendable.ai 和其社区共同开发的 API 服务,它能够将整个网站转换成适用于大型语言模型(LLM)的 Markdown 或结构化数据。 该服务通过爬取网站及其所有可访问的子页面,提供干净的数据,无需网站地图。  使用场景- 内容转换:将网页内容转换为 Markdown 或结构化数据,便于进一步处理和分析。
- 数据提取:从网页中提取所需数据,例如文章标题、评论、元数据等。
- 搜索引擎优化(SEO):通过提取网站数据,分析和优化网站的 SEO 表现。
- 内容聚合:聚合多个网站的内容,创建综合性的信息平台。
- 自动化文档生成:自动化生成文档,如用户手册、帮助文档等。
使用方法使用前提- 安装必要的软件包,比如Python SDK或Node SDK。
使用方法1. API调用: 使用API密钥,通过cURL命令行工具或SDK调用Firecrawl API。 2. Python SDK - 安装:
pip install firecrawl-py
fromfirecrawlimportFirecrawlApp
app=FirecrawlApp(api_key="YOUR_API_KEY") crawl_result=app.crawl_url('mendable.ai',{'crawlerOptions':{'excludes':['blog/*']}}) forresultincrawl_result: print(result['markdown'])
- 安装:
npm install @mendable/firecrawl-js
importFirecrawlAppfrom"@mendable/firecrawl-js";
constapp=newFirecrawlApp({ apiKey:"fc-YOUR_API_KEY", });
consturl='https://example.com'; constscrapedData=awaitapp.scrapeUrl(url); console.log(scrapedData);
API功能- Crawling:爬取一个URL及其所有可访问的子页面,返回一个作业ID以检查爬取状态。
- Search(Beta):搜索网络,获取最相关结果,抓取每个页面并返回Markdown。
- Intelligent Extraction(Beta):从抓取的页面中提取结构化数据。
注意事项: 用户在使用Firecrawl进行抓取、搜索和爬取活动之前,应遵守适用的隐私政策和网站的使用条款。 |