沒有産品在購物車中。
想象一下,你是一個默默耕耘的開源社區管理員,服務器日複一日地爲開發者提供支持,突然有一天,流量日志裏冒出一堆不速之客——不是黑客,不是爬蟲愛好者,而是AI大模型的訓練機器人。這些家夥像餓狼一樣撲向你的數據,把帶寬吃得幹幹淨淨,甚至連頁面加載都卡到懷疑人生。很遺憾,這不是陰謀論科幻片,而是廣大中小互聯網企業/服務正面臨的現實威脅。
?
DDoS新勢力:AI爬蟲
?
就在本周一,SourceHut——一家开源Git托管服务平台,在其状态页面上无奈喊话:“我们持续遭受激进的LLM(大語言模型)爬虫干扰,服务屡屡受阻。”为了自救,他们祭出了名为“Nepenthes”的捕虫器,试图困住这些为AI训练而生的爬虫,同时还直接封禁了Google Cloud和Microsoft Azure等雲服務商的IP——因爲這些地方正是爬蟲流量的重災區。
?
SourceHut坦言,雖然這些措施暫時控制住了局面,但也可能誤傷正常用戶,體驗降級在所難免。
?
这不是SourceHut第一次被“爬虫DDoS”搞得焦头烂额。早在2022年,他们就曾公开diss谷歌的Go Module Mirror,指责其无节制的流量请求形同“拒绝服务攻击”。而如今,随着生成式AI热潮席卷全球,类似的故事在互联网的各个角落反复上演。
?
維修網站iFixit去年7月就曾抱怨Anthropic的Claudebot過度爬取;雲托管服務Vercel則在2024年12月披露,單月內OpenAI的GPTbot发起了5.69亿次请求,Anthropic的Claudebot也有3.7亿次,合计占谷歌Googlebot请求量的20%。Diaspora开发者Dennis Schubert甚至爆料,他服务器60天内70%的流量都来自LLM训练机器人。
?
這些AI爬蟲爲何如此猖狂?答案很簡單:數據饑渴。生成式AI的崛起讓OpenAI、Anthropic、Google等玩家對互聯網內容的渴求達到了前所未有的高度。無論是ChatGPT的對話能力,還是Claude的推理水平,背後都需要海量數據喂養。然而,這種“拿來主義”正在給中小型互聯網服務帶來沈重負擔,甚至演變成一場無形的DDoS危機。
?
大模型“DDoS攻擊力指數”TOP10榜單
?
爲了更直觀地呈現這些AI爬蟲的“破壞力”,GoUpSec基于近期互聯網相關報道與公開數據,整理了一份“大模型DDoS攻擊力指數TOP10榜單”。指數綜合了爬蟲的請求量、覆蓋網站範圍、被封禁頻率以及對服務影響的嚴重程度等維度。以下是榜單及簡評:
?
1
Bytespider(字節跳動)
?
指數:95
?
點評:字節跳動的爬蟲王者,據Cloudflare統計,其請求量和覆蓋範圍均居首位,爲自家AI産品豆包囤糧。被封禁率也高,其激進作風無人能敵。
?
2
GPTbot(OpenAI)
?
指數:90
?
點評:OpenAI的明星爬蟲,單月5.69億次請求讓人咋舌。雖然承諾尊重robots.txt,但僞裝流量和過載投訴仍讓它穩坐榜眼。
?
3
Claudebot(Anthropic)
?
指數:85
?
點評:Anthropic的訓練先鋒,3.7億次月請求+iFixit百萬次單日轟炸,堪稱“溫柔殺手”。被封禁率稍低,但破壞力不容小觑。
?
4
Amazonbot(亞馬遜)
?
指數:80
?
點評:爲Alexa索引內容而生,流量雖不及前三,但開發者頻頻抱怨其過載行爲,僞裝流量也讓人生疑。
?
5
Google-Extended(谷歌)
?
指數:75
?
點評:谷歌專爲AI訓練設計的爬蟲,13.6%的頂級網站封禁率顯示其影響力。雙重身份(搜索+AI)讓網站主投鼠忌器。
?
6
AppleBot(蘋果)
?
指數:70
?
點評:蘋果爲AI功能收集數據的代表,透明度較高,但DoubleVerify數據顯示其貢獻了2024年16%的無效流量。
?
7
Meta?AI?Bot(Meta)
?
指數:65
?
點評:Meta的AI野心驅使其爬蟲活躍,雖然自稱目的明確,但多用途屬性讓封禁變得複雜。
?
8
CCBot(Common Crawl)
?
指數:60
?
點評:開源數據集的常客,22.1%的頂級網站封禁率說明其影響廣泛,但攻擊性稍遜商業爬蟲。
?
9
OAI-SearchBot(OpenAI)
?
指數:55
?
點評:OpenAI的新兵,甫一亮相就被14家主流媒體封殺,潛力未完全釋放。
?
10
Perplexity AI Bot(Perplexity)
?
指數:50
?
點評:AI搜索新貴,僞裝成普通浏覽器偷偷摸摸爬數據,惹惱了不少網站主。
?
面對“白嫖”:躺平還是對抗?
?
瘋狂的AI爬蟲其實也有自己的行規,2023年8月,OpenAI率先承諾GPTbot會遵守robots.txt標准,其他廠商紛紛跟進。然而現實卻是,承諾歸承諾,執行靠自覺。Diaspora的Schubert就發現,他的服務器日志裏滿是僞裝成GPTbot的“山寨爬蟲”,IP來自AWS甚至美國居民網絡,顯然是惡作劇者趁亂起哄。DoubleVerify的報告更指出,2024下半年因AI爬蟲導致的“一般無效流量”(GIVT)激增86%,其中16%直接來自GPTbot、Claudebot等知名玩家。
?
這背後,是AI公司與網站主之間的博弈。一方面,AI廠商需要數據喂養模型,互聯網是天然的“糧倉”;另一方面,網站主卻面臨帶寬擠占、隱私爭議甚至版權糾紛的困境。SourceHut封禁雲服務商、iFixit更新robots.txt,都是被動防禦的縮影。更棘手的是,像Googlebot這樣身兼搜索與AI雙重任務的爬蟲,讓網站主在封禁與曝光之間左右爲難(編者:谷歌2023年發布robots.txt的Google-Extended産品令牌,經允許網站運營者單獨封鎖爬蟲而不影響網頁檢索和排名)。
?
AI爬蟲的“DDoS效應”暴露了生成式AI熱潮下的隱憂。對于中小型服務商來說,這不僅是技術挑戰,更是生存問題。SourceHut的“Nepenthes”捕蟲器、Cloudflare的“一鍵屏蔽AI爬蟲”功能,都是技術社區的反擊嘗試。但長遠看,光靠封禁和對抗顯然不是解藥。
?
或許,未來的出路在于平衡——AI公司需要更透明的數據采集政策,甚至通過授權或付費模式與網站主合作;而網站主則需在保護自身權益與擁抱AI生態之間找到折中點。否則,這場爬蟲與服務的“貓鼠遊戲”,只會讓互聯網的生態雪上加霜。
?
你被大模型DDoS了嗎?也許下一個喊救命的,就是你常上的那個小衆論壇。