Đăng nhập/ Đăng ký

Cloudfare cáo buộc Perplexity.Ai "Bò lén" để trốn tránh chỉ thị cấm bò

2025/08/06 16:16

Theo dõi

Cloudflare cáo buộc Perplexity AI sử dụng trình thu thập thông tin ẩn để vượt qua các khối trang web — Gây ra cuộc đàn áp lớn về AI

Cloudflare đã đưa ra những cáo buộc nghiêm trọng đối với Perplexity AI, công ty khởi nghiệp tìm kiếm AI trị giá 18 tỷ đô la đang phát triển nhanh chóng, tuyên bố công ty này đã sử dụng các chiến thuật bí mật để thu thập nội dung từ các trang web chặn bot của mình một cách rõ ràng.

Những cáo buộc này đã làm bùng phát cuộc chiến chống lại việc các công ty AI khai thác dữ liệu bí mật của ngành công nghệ, đồng thời thu hút sự chú ý cấp bách của các chủ sở hữu trang web, nhà xuất bản và những người ủng hộ quyền kỹ thuật số.

Cuộc tranh cãi nổ ra sau khi khách hàng của Cloudflare báo cáo rằng bot của Perplexity vẫn tiếp tục truy cập vào trang web của họ mặc dù đã triển khai chỉ thị robots.txt và các quy tắc tường lửa cụ thể để chặn công ty này.

Perplexity liên tục sửa đổi tác nhân người dùng và thay đổi IP cũng như ASN để ẩn hoạt động thu thập thông tin, trực tiếp xung đột với tùy chọn không thu thập thông tin rõ ràng được các trang web thể hiện.https://t.co/yToVAmwcwn
— Cloudflare (@Cloudflare)Ngày 4 tháng 8 năm 2025

Để xác nhận nghi ngờ của mình, các kỹ sư của Cloudflare đã tiến hành các thử nghiệm có kiểm soát, tạo ra các miền có tệp robot.txt hạn chế, cấm mọi truy cập tự động.

Tuy nhiên, khi họ truy vấn AI của Perplexity, nó vẫn hiển thị thông tin chi tiết về nội dung được lưu trữ trên các miền bị hạn chế, chứng minh rõ ràng rằng các trình thu thập thông tin AI của Perplexity đã chủ động tránh các lệnh chặn.

Đáng ngạc nhiên hơn, nhóm kỹ thuật của Cloudflare thực hiện thử nghiệm cũng nhận thấy Perplexity đã triển khai các trình thu thập thông tin ẩn danh để che giấu danh tính bằng cách bắt chước các trình duyệt chính thống như Google Chrome trên macOS.

😬 Perplexity bị phát hiện đang thu thập hoặc quét các trang web chặn chúng một cách rõ ràng bằng robots.txt bằng cách ngụy trang thành trình thu thập thông tin AI và thay đổi IP của chúng.

Cloud Flare đã đưa ra bằng chứng thực nghiệm về điều này.

Nguồn: https://t.co/31tbi5zQoh pic.twitter.com/8m1Qe7GjBO
– Saadh Jawwadh (@SaadhJawwadh)Ngày 5 tháng 8 năm 2025

Những trình thu thập thông tin này luân phiên các địa chỉ IP, thường hoạt động từ nhiều hệ thống tự trị và đưa ra các yêu cầu từ các IP nằm ngoài phạm vi công khai của Perplexity.

Cloudflare ước tính khối lượng của các trình thu thập thông tin "không khai báo" này đã thêm 3–6 triệu yêu cầu mỗi ngày vào lưu lượng truy cập đã khai báo của công ty, ảnh hưởng đến hàng chục nghìn tên miền.

Sự trả đũa nhanh chóng của Cloudflare và hậu quả đối với ngành

Cloudflare phản ứng bằng cách xóa Perplexity khỏi chương trình bot đã được xác minh và triển khai các biện pháp phòng thủ mới.

Tất cả các tên miền mới được đăng ký với Cloudflare hiện đều được bảo vệ theo mặc định khỏi trình thu thập thông tin AI trái phép—một động thái mà công ty gọi là "Ngày độc lập nội dung".

Tự hào về đội ngũ Cloudflare đang nỗ lực xây dựng mô hình kinh doanh bền vững cho web sử dụng AI.
Chúc mừng Ngày Độc lập Nội dung! Không thu thập dữ liệu AI mà không được đền bù.pic.twitter.com/T4mKLFyTjr
— Matthew Prince 🌥 (@eastdakota)Ngày 1 tháng 7 năm 2025

Công ty cũng đã phát hành các quy tắc dựa trên chữ ký nhắm vào các chiến thuật ẩn của Perplexity, miễn phí cho tất cả khách hàng của Cloudflare và đang thử nghiệm các công cụ tiên tiến như "AI Labyrinth".

Tính năng này bẫy các bot độc hại trong nội dung mồi nhử và hệ thống "trả tiền cho mỗi lần thu thập thông tin" sắp ra mắt có thể cho phép các nhà xuất bản trực tiếp kiếm tiền và kiểm soát cách các công cụ AI truy cập vào nội dung của họ.

Các nhà xuất bản và nền tảng hàng đầu, bao gồm Associated Press, Time, BuzzFeed, Reddit và Universal Music Group, đã tham gia phong trào ngày càng phát triển nhằm chặn các trình thu thập dữ liệu AI không mong muốn khi những người sáng tạo nội dung lên tiếng về sự thất vọng ngày càng tăng đối với việc thu thập dữ liệu trái phép.

Sau những cáo buộc, Perplexity AI đã bác bỏ những phát hiện này và coi đó là "chiêu trò bán hàng" của Cloudflare và khẳng định họ không truy cập bất kỳ nội dung nào bất chấp lệnh cấm trang web.

Hôm nay, Cloudflare cáo buộc Perplexity đã thực hiện hành vi độc hại.

Và cuối cùng, tất cả những gì nó tiết lộ là Cloudflare không hiểu AI hoặc không giỏi trong lĩnh vực của mình.

Ba đoạn văn sau đây trong Perplexity đã nói lên tất cả.

Thả mic 🎤pic.twitter.com/ZEka0a0Cs7
— Morgan (@morganlinton)Ngày 5 tháng 8 năm 2025

Ngành công nghiệp đang ở bước ngoặt

Sự bế tắc không chỉ xoay quanh một startup. CEO Cloudflare, Matthew Prince, đã lên tiếng chỉ trích mạnh mẽ các hoạt động "không bền vững" của AI trong việc thu thập dữ liệu web, chỉ ra tỷ lệ đáng báo động: Google chỉ giới thiệu một lượt truy cập trang web cho mỗi 18 nội dung mà nó thu thập được, trong khi tỷ lệ của các công ty AI còn tệ hơn nhiều—đôi khi chỉ bằng một lượt truy cập giới thiệu cho mỗi 1.500 đến 60.000 trang được thu thập.

Tình hình này đã làm bùng lên cuộc tranh luận về tương lai của nội dung web, doanh thu xuất bản và cơ chế thích hợp để kiểm soát quyền truy cập AI.

Cloudflare so sánh hành vi của Perplexity với OpenAI, công ty này tuyên bố rằng OpenAI tôn trọng đúng sở thích của trang web và ngừng thu thập thông tin khi được yêu cầu.

Thông điệp của công ty rất rõ ràng: thời đại thu thập dữ liệu lén lút phải nhường chỗ cho sự minh bạch, đồng thuận và bồi thường công bằng.

Điểm nóng này đang buộc thế giới công nghệ phải tính đến những câu hỏi khó về quyền dữ liệu, phát triển AI và nền tảng kinh tế của xuất bản trực tuyến.

Khi AI ngày càng được tích hợp nhiều hơn vào tìm kiếm, khám phá nội dung và trải nghiệm kỹ thuật số, hậu quả từ tranh chấp Cloudflare–Perplexity rất có thể sẽ định hình cách các trang web bảo vệ nội dung của họ—và cách các công ty khởi nghiệp AI xây dựng sản phẩm của họ—trong suốt giai đoạn tiếp theo của nền kinh tế kỹ thuật số.

Có được sự hiểu biết rộng hơn về ngành công nghiệp tiền điện tử thông qua các báo cáo thông tin và tham gia vào các cuộc thảo luận chuyên sâu với các tác giả và độc giả cùng chí hướng khác. Chúng tôi hoan nghênh bạn tham gia vào cộng đồng Coinlive đang phát triển của chúng tôi:https://t.me/CoinliveSG

Thêm bình luận

Đăng nhậpđể lại nhận xét tuyệt vời của bạn…

0 Bình luận

Sớm nhất

Tải thêm bình luận