Cloudflare /crawl 端点发布推文

昨天,Cloudflare 发了一条推文,750 万次浏览,开发者社区炸锅了。

内容只有一句话:一次 API 调用,爬完整个网站。

这件事为什么重要?要理解它,先从"爬虫"到底是什么说起。

什么是爬虫?它在历史上是怎么工作的?

你每天用的搜索引擎——Google、百度——它们是怎么知道全世界所有网页的内容的?

答案就是"爬虫":一种自动访问网页、读取内容、然后跟着页面里的链接继续访问下一个页面的程序。就像一个超级勤奋的图书管理员,把互联网上每一本"书"都翻开、记录、归档。

搜索引擎用爬虫来建立索引。AI 公司用爬虫来收集训练数据。数据分析公司用爬虫来监控竞争对手的价格、库存、内容变化。

但是,在过去,搭建一个爬虫是一件非常麻烦的事。

你需要:

这意味着,爬虫一直是大公司、专业技术团队才玩得起的东西。一个小型创业公司,或者一个想做数据分析的个人,往往在"搭环境"这一步就已经放弃了。

Cloudflare 做了什么?

Cloudflare 是全球最大的网络基础设施公司之一,全球大约 20% 的网站流量都经过它的服务器。

3 月 11 日,他们推出了一个新的 /crawl 端点(目前开放公测)。

简单说:他们把"爬一个网站"这件事,封装成了一次 API 调用。

你只需要告诉它一个网址,剩下的全由 Cloudflare 来搞定——自动发现页面链接、自动渲染 JavaScript 内容、自动遵守网站的爬虫规则(robots.txt)、最后把所有内容整理好还给你,格式可以是 HTML、Markdown(干净的纯文本),或者结构化的 JSON 数据。

输入:一个网址
输出:整个网站的内容

就这么简单。

跟以前的爬虫有什么本质区别?

以前,"爬虫"是一个工程项目:你需要一个团队、时间、服务器资源,以及持续的维护成本。

现在,Cloudflare 把它变成了一个基础设施服务,就像打电话一样:你不需要知道通话是怎么建立的,你只管拨号。

几个关键差别:

1. 不需要管理基础设施

以前你要自己租服务器、配置爬虫程序、处理崩溃和重试。现在这些全都由 Cloudflare 承担。

2. 天然处理现代网页

很多网站的内容是 JavaScript 动态加载的(比如电商平台的商品价格)。传统爬虫抓不到这些内容,要额外用"无头浏览器"才行,配置复杂。Cloudflare 的服务内置了这个能力,默认就能正确渲染。

3. 直接输出结构化内容

爬下来的原始 HTML 通常是一堆乱七八糟的标签,要花大力气清洗和解析。Cloudflare 支持直接输出 Markdown(去掉所有排版标签,只留内容)和 JSON(结合 AI 按你指定的格式提取数据),大大降低了后续处理的门槛。

4. 合规性内置

爬虫是有"礼仪"的——网站可以通过 robots.txt 文件声明不希望被哪些爬虫访问。Cloudflare 的服务默认遵守这些规则,减少了法律和道德风险。

这对普通人和普通公司意味着什么?

这才是这件事真正有意思的地方。

对个人来说:

对中小企业来说:

对 AI 应用开发者来说:

大语言模型的知识有截止日期,它不知道最新发生的事。解决这个问题的方法叫做 RAG(检索增强生成)——用实时的、最新的网络内容来补充 AI 的知识。以前,"持续获取最新网络内容"这一步就卡死了很多项目。现在,这一步变成了一行代码。

法律边界:爬虫不是"随便用"的工具

技术门槛降低了,法律风险并没有随之消失。这一点,尤其值得普通用户和中小企业认真对待。

爬虫在法律上处于一个长期模糊的地带。

公开网页的内容,从技术上看人人都能访问;但"能访问"和"能随意使用"是两回事。在不同的使用场景下,爬虫可能涉及以下几类法律风险:

1. 版权问题

网站上的文章、图片、数据库,通常都是有版权保护的。爬下来之后,如果只是自己分析,风险较小;但如果拿来转载、二次发布、甚至用于商业产品,就可能构成侵权。

目前全球最热的法律争议,正是围绕 AI 训练数据展开的——《纽约时报》起诉 OpenAI,核心指控之一就是未经授权大规模爬取其文章用于训练模型。这场官司还没有定论,但它已经为整个行业敲响了警钟。

2. 违反网站服务条款

几乎所有大型网站的用户协议里都有一条:禁止自动化爬取。违反服务条款,在民事层面可能导致账号封禁、民事赔偿;在某些情况下,还可能被认定为非法访问。

美国法院在 hiQ Labs v. LinkedIn 一案中裁定:爬取公开可访问的数据通常不违反《计算机欺诈与滥用法案》(CFAA)。但这个判决有其适用范围,不能简单理解为"爬公开页面合法"。

3. 在中国的特殊风险

中国的法律环境对爬虫更为严格,已有多起因爬虫被追究刑事责任的案例。相关法规包括:

4. robots.txt 遵守≠法律豁免

Cloudflare 的 /crawl 服务默认遵守 robots.txt,这是好事,但需要理解它的局限性:robots.txt 是一个技术惯例,没有法律约束力。遵守它只是行业礼仪,不代表爬取行为在法律上就没有问题。


总的来说,爬虫的合法使用有几个基本原则可以参考:

技术门槛降低,意味着更多人会去使用这个工具。但门槛降低不等于风险消失——如果你打算把爬虫用于商业用途,务必事先咨询法律意见。

小结

爬虫技术本身不是新东西,但它一直是专业门槛很高的工程工作。Cloudflare 做的事,是把这个能力变成了基础设施——就像云计算让"拥有服务器"不再需要买物理机器一样,现在"爬取网站"也不再需要搭建复杂的爬虫系统了。

这种"基础设施化"的趋势,往往意味着一件事:以前只有大公司能做到的事,现在普通人也能做到了。

至于这会催生出什么新的应用和商业模式,现在还很难说。但这扇门,Cloudflare 已经打开了。


来源:Cloudflare Developers Blog,@CloudflareDev on X