返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Firecrawl:3.9K Star!一键将网站转换为LLM可读的Markdown或结构化数据

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 10:19 |阅读模式 打印 上一主题 下一主题

项目简介

Firecrawl 是一个由 Mendable.ai 和其社区共同开发的 API 服务,它能够将整个网站转换成适用于大型语言模型(LLM)的 Markdown 或结构化数据。

该服务通过爬取网站及其所有可访问的子页面,提供干净的数据,无需网站地图。

使用场景

  1. 内容转换:将网页内容转换为 Markdown 或结构化数据,便于进一步处理和分析。
  2. 数据提取:从网页中提取所需数据,例如文章标题、评论、元数据等。
  3. 搜索引擎优化(SEO):通过提取网站数据,分析和优化网站的 SEO 表现。
  4. 内容聚合:聚合多个网站的内容,创建综合性的信息平台。
  5. 自动化文档生成:自动化生成文档,如用户手册、帮助文档等。

使用方法

使用前提

  • 注册Firecrawl以获取API密钥。
  • 安装必要的软件包,比如Python SDK或Node SDK。

使用方法

1. API调用

使用API密钥,通过cURL命令行工具或SDK调用Firecrawl API。

2. Python SDK

  • 安装:pip install firecrawl-py
  • 示例代码:
fromfirecrawlimportFirecrawlApp

app=FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result=app.crawl_url('mendable.ai',{'crawlerOptions':{'excludes':['blog/*']}})
forresultincrawl_result:
print(result['markdown'])
  1. Node SDK
  • 安装:npm install @mendable/firecrawl-js
  • 示例代码:
importFirecrawlAppfrom"@mendable/firecrawl-js";

constapp=newFirecrawlApp({
apiKey:"fc-YOUR_API_KEY",
});

consturl='https://example.com';
constscrapedData=awaitapp.scrapeUrl(url);
console.log(scrapedData);

API功能

  • Crawling:爬取一个URL及其所有可访问的子页面,返回一个作业ID以检查爬取状态。
  • Scraping:抓取一个URL并获取其内容。
  • Search(Beta):搜索网络,获取最相关结果,抓取每个页面并返回Markdown。
  • Intelligent Extraction(Beta):从抓取的页面中提取结构化数据。

注意事项: 用户在使用Firecrawl进行抓取、搜索和爬取活动之前,应遵守适用的隐私政策和网站的使用条款。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ