Cloudflare cáo buộc Perplexity AI sử dụng trình thu thập thông tin ẩn để vượt qua các khối trang web — Gây ra cuộc đàn áp lớn về AI
Cloudflare đã đưa ra những cáo buộc nghiêm trọng đối với Perplexity AI, công ty khởi nghiệp tìm kiếm AI trị giá 18 tỷ đô la đang phát triển nhanh chóng, tuyên bố công ty này đã sử dụng các chiến thuật bí mật để thu thập nội dung từ các trang web chặn bot của mình một cách rõ ràng.
Những cáo buộc này đã làm bùng phát cuộc chiến chống lại việc các công ty AI khai thác dữ liệu bí mật của ngành công nghệ, đồng thời thu hút sự chú ý cấp bách của các chủ sở hữu trang web, nhà xuất bản và những người ủng hộ quyền kỹ thuật số.
Cuộc tranh cãi nổ ra sau khi khách hàng của Cloudflare báo cáo rằng bot của Perplexity vẫn tiếp tục truy cập vào trang web của họ mặc dù đã triển khai chỉ thị robots.txt và các quy tắc tường lửa cụ thể để chặn công ty này.
Để xác nhận nghi ngờ của mình, các kỹ sư của Cloudflare đã tiến hành các thử nghiệm có kiểm soát, tạo ra các miền có tệp robot.txt hạn chế, cấm mọi truy cập tự động.
Tuy nhiên, khi họ truy vấn AI của Perplexity, nó vẫn hiển thị thông tin chi tiết về nội dung được lưu trữ trên các miền bị hạn chế, chứng minh rõ ràng rằng các trình thu thập thông tin AI của Perplexity đã chủ động tránh các lệnh chặn.
Đáng ngạc nhiên hơn, nhóm kỹ thuật của Cloudflare thực hiện thử nghiệm cũng nhận thấy Perplexity đã triển khai các trình thu thập thông tin ẩn danh để che giấu danh tính bằng cách bắt chước các trình duyệt chính thống như Google Chrome trên macOS.
Những trình thu thập thông tin này luân phiên các địa chỉ IP, thường hoạt động từ nhiều hệ thống tự trị và đưa ra các yêu cầu từ các IP nằm ngoài phạm vi công khai của Perplexity.
Cloudflare ước tính khối lượng của các trình thu thập thông tin "không khai báo" này đã thêm 3–6 triệu yêu cầu mỗi ngày vào lưu lượng truy cập đã khai báo của công ty, ảnh hưởng đến hàng chục nghìn tên miền.
Sự trả đũa nhanh chóng của Cloudflare và hậu quả đối với ngành
Cloudflare phản ứng bằng cách xóa Perplexity khỏi chương trình bot đã được xác minh và triển khai các biện pháp phòng thủ mới.
Tất cả các tên miền mới được đăng ký với Cloudflare hiện đều được bảo vệ theo mặc định khỏi trình thu thập thông tin AI trái phép—một động thái mà công ty gọi là "Ngày độc lập nội dung".
Công ty cũng đã phát hành các quy tắc dựa trên chữ ký nhắm vào các chiến thuật ẩn của Perplexity, miễn phí cho tất cả khách hàng của Cloudflare và đang thử nghiệm các công cụ tiên tiến như "AI Labyrinth".
Tính năng này bẫy các bot độc hại trong nội dung mồi nhử và hệ thống "trả tiền cho mỗi lần thu thập thông tin" sắp ra mắt có thể cho phép các nhà xuất bản trực tiếp kiếm tiền và kiểm soát cách các công cụ AI truy cập vào nội dung của họ.
Các nhà xuất bản và nền tảng hàng đầu, bao gồm Associated Press, Time, BuzzFeed, Reddit và Universal Music Group, đã tham gia phong trào ngày càng phát triển nhằm chặn các trình thu thập dữ liệu AI không mong muốn khi những người sáng tạo nội dung lên tiếng về sự thất vọng ngày càng tăng đối với việc thu thập dữ liệu trái phép.
Sau những cáo buộc, Perplexity AI đã bác bỏ những phát hiện này và coi đó là "chiêu trò bán hàng" của Cloudflare và khẳng định họ không truy cập bất kỳ nội dung nào bất chấp lệnh cấm trang web.
Ngành công nghiệp đang ở bước ngoặt
Sự bế tắc không chỉ xoay quanh một startup. CEO Cloudflare, Matthew Prince, đã lên tiếng chỉ trích mạnh mẽ các hoạt động "không bền vững" của AI trong việc thu thập dữ liệu web, chỉ ra tỷ lệ đáng báo động: Google chỉ giới thiệu một lượt truy cập trang web cho mỗi 18 nội dung mà nó thu thập được, trong khi tỷ lệ của các công ty AI còn tệ hơn nhiều—đôi khi chỉ bằng một lượt truy cập giới thiệu cho mỗi 1.500 đến 60.000 trang được thu thập.
Tình hình này đã làm bùng lên cuộc tranh luận về tương lai của nội dung web, doanh thu xuất bản và cơ chế thích hợp để kiểm soát quyền truy cập AI.
Cloudflare so sánh hành vi của Perplexity với OpenAI, công ty này tuyên bố rằng OpenAI tôn trọng đúng sở thích của trang web và ngừng thu thập thông tin khi được yêu cầu.
Thông điệp của công ty rất rõ ràng: thời đại thu thập dữ liệu lén lút phải nhường chỗ cho sự minh bạch, đồng thuận và bồi thường công bằng.
Điểm nóng này đang buộc thế giới công nghệ phải tính đến những câu hỏi khó về quyền dữ liệu, phát triển AI và nền tảng kinh tế của xuất bản trực tuyến.
Khi AI ngày càng được tích hợp nhiều hơn vào tìm kiếm, khám phá nội dung và trải nghiệm kỹ thuật số, hậu quả từ tranh chấp Cloudflare–Perplexity rất có thể sẽ định hình cách các trang web bảo vệ nội dung của họ—và cách các công ty khởi nghiệp AI xây dựng sản phẩm của họ—trong suốt giai đoạn tiếp theo của nền kinh tế kỹ thuật số.