SOGO論壇
  登入   註冊   找回密碼
查看: 3401|回覆: 0
列印 上一主題 下一主題

[AI 應用] Perplexity 再爆爭議,遭控「隱形爬蟲」繞過封鎖抓取網站內容 [複製連結]

Rank: 8Rank: 8

狀態︰ 離線
跳轉到指定樓層
1
發表於 2025-8-5 20:20:28 |只看該作者 |倒序瀏覽 | x 1
根據 Cloudflare 的一份新報告,Perplexity 的網路爬蟲被指控再次繞過網站的限制,進行不當的資料擷取。

報告指出,Perplexity的機器人似乎正在進行「隱形爬蟲」操作,透過改變User-Agent標頭與輪換IP所屬自治系統(ASN)來繞過robots.txt及Web應用防火牆(WAF)的限制。

robots.txt是一種簡單的檔案,網站用來告訴網路爬蟲哪些頁面允許訪問、哪些禁止抓取。Perplexity的官方爬蟲包括「PerplexityBot」和「Perplexity-User」。在Cloudflare的測試中,即使這些特定的機器人被robots.txt封鎖,Perplexity仍然能夠顯示一個新的、未編入索引的網站內容。這種行為也延伸到具有特定Web應用防火牆(WAF)規則的網站,這些規則限制了網路爬蟲的訪問。

Cloudflare認為,Perplexity可能透過使用「一種旨在模仿macOS上Google Chrome的通用瀏覽器」來繞過這些障礙。根據Cloudflare的測試,該公司的未申報爬蟲還能夠輪換使用不在Perplexity官方IP範圍內的IP地址,以突破防火牆。Cloudflare指出,Perplexity似乎也在使用自動系統號碼(ASN)來進行相同的操作,報告中提到該爬蟲在「數以萬計的域名和每天數百萬的請求中切換ASN」。

Cloudflare已將Perplexity的機器人從其驗證機器人名單中移除,並實施了一種辨識和阻止Perplexity隱形爬蟲訪問其客戶內容的方法。這反映了Cloudflare對AI爬蟲影響的重視與應對策略。

對於訓練AI模型的公司來說,網站的最新資訊至關重要,尤其是像Perplexity這樣的服務被用作搜尋引擎的替代品。Perplexity過去也曾被發現繞過規則以保持最新狀態。多個網站在2024年報告稱,Perplexity仍然在訪問他們的內容,儘管他們在robots.txt中禁止了這一行為,該公司當時將此責任歸咎於其使用的第三方網路爬蟲。Perplexity隨後與多家出版商合作,分享從其內容旁邊顯示的廣告中獲得的收入,似乎是對其過去行為的補償。

阻止公司從網路上擷取內容的行為可能仍將是一場貓捉老鼠的遊戲。根據Cloudflare的報告,AI爬蟲流量於近年急劇增長,Perplexity爬蟲流量增幅甚至高達1,574倍,遠超Google和OpenAI GPTBot。

錄自:科技新報
已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-8-24 06:02

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部