NỘI DUNG
Cách chặn Bot AI thu thập dữ liệu Website hiệu quả giúp bảo vệ website luôn an toàn.
Trong thời đại trí tuệ nhân tạo (AI) phát triển mạnh mẽ, nhiều bot AI như GPTBot, ClaudeBot hay Google-Extended đang thu thập dữ liệu từ các website để huấn luyện mô hình AI. Nếu bạn không muốn nội dung website của mình bị sử dụng mà không có sự cho phép, việc chặn các bot AI này là rất cần thiết. Bài viết này sẽ hướng dẫn bạn cách sử dụng tệp robots.txt để ngăn bot AI thu thập dữ liệu một cách hiệu quả, không cần phụ thuộc vào các dịch vụ như Cloudflare.
Robots.txt là gì?

Tệp robots.txt là một tệp văn bản đặt trong thư mục gốc của website (ví dụ: https://yourdomain.com/robots.txt). Nó hướng dẫn các web crawler (bao gồm bot tìm kiếm và bot AI) về những phần nào của website được phép hoặc không được phép thu thập dữ liệu. Bằng cách thêm các quy tắc cụ thể, bạn có thể chặn các bot AI như GPTBot của OpenAI hoặc ClaudeBot của Anthropic truy cập vào website của mình.
Tại sao cần chặn bot AI?
- Bảo vệ nội dung độc quyền: Ngăn nội dung như bài viết, hình ảnh, hoặc dữ liệu độc quyền bị sử dụng để huấn luyện mô hình AI mà không được phép.
- Kiểm soát quyền riêng tư: Hạn chế việc dữ liệu nhạy cảm bị thu thập bởi các bot AI.
- Giảm tải máy chủ: Giảm lượng truy cập không mong muốn từ các bot, giúp tiết kiệm tài nguyên.
Lưu ý: Việc tuân thủ robots.txt là tự nguyện. Một số bot AI có thể bỏ qua quy tắc này, nhưng việc sử dụng robots.txt vẫn là bước đầu tiên hiệu quả để bảo vệ website.
Để không ảnh hưởng SEO: Đảm bảo không chặn các bot tìm kiếm như Googlebot hoặc Bingbot, vì điều này có thể làm website của bạn không được lập chỉ mục trên công cụ tìm kiếm.
Danh sách các bot AI phổ biến
Dưới đây là một số bot AI bạn có thể muốn chặn. Bạn có thể cập nhật danh sách này nếu có bot AI mới xuất hiện.
- Amazonbot: Bot của Amazon.
- Applebot-Extended: Bot AI của Apple.
- Bytespider: Bot của ByteDance (TikTok).
- CCBot: Bot của Common Crawl.
- ClaudeBot: Bot của Anthropic (Claude AI).
- Google-Extended: Bot AI của Google.
- GPTBot: Bot của OpenAI (ChatGPT).
- meta-externalagent: Bot AI của Meta.
Các bước chặn bot AI bằng robots.txt
Dưới đây là hướng dẫn chi tiết để triển khai thủ công các quy tắc chặn bot AI trên website của bạn.
Bước 1: Tạo tệp robots.txt
Bạn hãy truy cập https://yourdomain.com/robots.txt trên trình duyệt để xem website của bạn đã có tệp robots.txt chưa.
Nếu chưa có, bạn cần tạo một tệp mới. Nếu đã có, bạn sẽ chỉnh sửa để thêm các quy tắc chặn bot AI. Như trong bài hướng dẫn này tôi sẽ tạo mới tệp robots.txt

Bước 2: Thêm quy tắc chặn bot AI
Thêm các quy tắc sau vào tệp robots.txt để chặn các bot AI phổ biến. Đây là danh sách các bot AI thường gặp và quy tắc chặn tương ứng:
# NOTICE: The collection of content and other data on this
# site through automated means, including any device, tool,
# or process designed to data mine or scrape content, is
# prohibited except (1) for the purpose of search engine indexing or
# artificial intelligence retrieval augmented generation or (2) with express
# written permission from this site’s operator.
# To request permission to license our intellectual
# property and/or other materials, please contact this
# site’s operator directly.
User-agent: Amazonbot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: meta-externalagent
Disallow: /
Sitemap: https://www.yourdomain.com/sitemap.xml
Chú thích:
- User-agent: Chỉ định bot cụ thể (ví dụ: GPTBot là bot của OpenAI).
- Disallow: /: Chặn bot truy cập toàn bộ website.
- # NOTICE: Phần thông báo pháp lý, khuyến khích thêm để làm rõ chính sách của bạn.

Kết luận
Chặn bot AI thu thập dữ liệu website là một bước quan trọng để bảo vệ nội dung và quyền riêng tư của bạn. Bằng cách sử dụng tệp robots.txt với các quy tắc chặn bot AI như hướng dẫn trên, bạn có thể dễ dàng kiểm soát việc thu thập dữ liệu mà không cần phụ thuộc vào các dịch vụ bên thứ ba. Hãy đảm bảo kiểm tra và cập nhật tệp robots.txt thường xuyên để giữ website của bạn an toàn.
Nếu bạn cần thêm hỗ trợ về cách triển khai hoặc muốn tìm hiểu các biện pháp bảo vệ khác, hãy để lại câu hỏi!
- Nguồn tham khảo: https://developers.cloudflare.com/bots/additional-configurations/managed-robots-txt/
