• Webmaster Tools
  • Diễn Đàn Hỏi Đáp
  • Profile
  • Ủng hộ
  • DNS Check
  • CheckIP
  • Liên Hệ
Đỗ Trung Quân
  • HƯỚNG DẪN
  • LINUX
    • Linux Tricks
    • Distro Linux
      • CentOS/RedHat
      • CloudLinux
      • Ubuntu/Debian
      • AlmaLinux
    • WebServer
      • NGINX
      • Apache
      • LiteSpeed
    • Virtualization
    • Monitoring Tool
      • Zabbix
    • DevOPS
      • Ansible
      • Docker
      • Jenkins
      • AWS
    • Mail Server
    • VPN
  • CONTROL PANEL
    • cPanel
    • DirectAdmin
    • aaPanel
    • FastPanel
    • CyberPanel
    • Easypanel
    • VestaCP
    • CloudPanel
    • HestiaCP
    • Plesk
    • Script VPS
  • DNS
    • Domain
  • CMS
    • WordPress
    • Laravel
  • SECURITY
    • SSL
    • Firewall
  • DỊCH VỤHOT
  • WEB MẪUHOT

Cách sử dụng Robots.txt để kiểm soát trình thu thập thông tin web

by ĐỖ TRUNG QUÂN 28/04/2022
Tác giả: ĐỖ TRUNG QUÂN 28/04/2022 1 bình luận 695 lượt xem
Dịch vụ xử lý mã độc WordPress
WEB MẪU WORDPRESS
Share FacebookTwitterPinterestTelegramEmail
695

NỘI DUNG

  • Cấu trúc của file Robots.txt
  • Các quy tắt chung của Robots.txt
    • 1. Cấp quyền cho Web Crawlers truy cập vào các tệp trang web.
    • 2. Từ chối quyền truy cập của Web Crawlers vào tệp trang web
    • 3. Nhóm các chỉ thị Robots.txt
    • 4. Kiểm soát khoảng thời gian của trình thu thập thông tin web

Tệp robots.txt là một tệp văn bản chứa các quy tắc hướng dẫn trình thu thập thông tin web và công cụ tìm kiếm truy cập hoặc bỏ qua các phần cụ thể trên trang web của bạn. Thường được gọi là robots web, trình thu thập thông tin tuân theo các lệnh trong tệp robots.txt trước khi quét bất kỳ phần nào trên trang web của bạn. Tệp robots.txt phải nằm trong thư mục gốc của trang web khi đó các trình thu thập thông tin mới có thể thu thập web.

Cách sử dụng Robots.txt để kiểm soát trình thu thập thông tin web

Và trong bài viết này mình sẽ giải thích cách sử dụng robots.txt để kiểm soát trình thu thập thông tin web. Và trước khi tạo các quy tắc cho tệp. Bạn hãy tìm hiểu qua cấu trúc của file Robots.txt nhé.

Cấu trúc của file Robots.txt

File Robots.txt hợp lệ sẽ chứa một hoặc nhiều lệnh được khai báo ở định dạng: field, colon, value.

  • User-agent: Khai báo quy tắc áp dụng cho trình thu thập thông tin web.
  • Allow: Chỉ định đường dẫn mà trình thu thập thông tin web sẽ truy cập.
  • Disallow: Khai báo đường dẫn mà trình thu thập thông tin web không được truy cập.
  • Sitemap: URL đầy đủ đến sơ đồ cấu trúc trang web.
robots txt

Value phải bao gồm các đường dẫn tương đối cho các trường Allow, Disallow, Sitemap (URL hợp lệ) cho sơ đồ trang web và tên trình thu thập thông tin web cho trường User-agent. Tên User-agent phổ biến và công cụ tìm kiếm tương ứng mà bạn có thể khai báo một cách an toàn trong tệp robots.txt bao gồm:

  • Alexa
    • ia_archiver
  • AOL
    • aolbuild
  • Bing
    • Bingbot
    • BingPreview
  • DuckDuckGo
    • DuckDuckBot
  • Google
    • Googlebot
    • Googlebot-Image
    • Googlebot-Video
  • Yahoo
    • Slurp
  • Yandex
    • Yandex

Các quy tắt chung của Robots.txt

1. Cấp quyền cho Web Crawlers truy cập vào các tệp trang web.

  • Cho phép một trình thu thập thông tin web truy cập tất cả các tệp trang web.
User-agent: Bingbot
Allow: /
  • Cho phép tất cả các Web Crawlers truy cập vào các tệp trang web.
User-agent: *
Allow: /
  • Cấp cho Web Crawlers quyền truy cập vào một tệp.
User-agent: Bingbot
Allow: /documents/helloworld.php
  • Cấp cho tất cả các Web Crawlers quyền truy cập vào một tệp duy nhất.
User-agent: *
Allow: /documents/helloworld.php

2. Từ chối quyền truy cập của Web Crawlers vào tệp trang web

  • Từ chối quyền truy cập của Web Crawlers vào tất cả các tệp trang web.
User-agent: Googlebot
Disallow: /
  • Từ chối tất cả các Web Crawlers truy cập vào các tệp trang web.
User-agent: *
Disallow: /
  • Từ chối quyền truy cập của Web Crawlers vào một hình ảnh.
User-agent: MSNBot-Media
Disallow: /documents/helloworld.jpg
  • Từ chối quyền truy cập của Web Crawlers vào tất cả các hình ảnh thuộc một loại cụ thể.
User-agent: MSNBot-Media
Disallow: /*.jpg$

Ngoài ra bạn cũng có thể từ chối một Web Crawlers hình ảnh cụ thể truy cập vào tất cả các hình ảnh của trang web.

Ví dụ: Quy tắc sau đây hướng dẫn các hình ảnh của Google bỏ qua tất cả và xóa các hình ảnh đã được lập chỉ mục khỏi cơ sở dữ liệu.

User-agent: Googlebot-Image
Disallow: /
  • Từ chối Web Crawlers truy cập vào tất cả các tệp ngoại trừ một tệp.
User-agent: *
Disallow: /~documents/helloworld.php
  • Để cho phép quyền truy cập vào nhiều tệp, hãy sử dụng và lặp lại quy tắc Không cho phép (Disallow)
User-agent: *
Disallow: /~documents/hello.php
Disallow: /~documents/world.php
Disallow: /~documents/again.php
  • Hướng dẫn tất cả Web Crawlers truy cập tệp trang web, nhưng bỏ qua một tệp cụ thể.
User-agent: *
Allow: /
Disallow: /documents/index.html
  • Hướng dẫn tất cả các Web Crawlers bỏ qua một thư mục cụ thể. Ví dụ: wp-admin.
User-agent: *
Disallow: /wp-admin/

3. Nhóm các chỉ thị Robots.txt

Để áp dụng chỉ thị robots.txt theo nhóm, hãy khai báo nhiều User-agent và áp dụng quy tắc duy nhất.

Ví dụ:

User-agent: Googlebot    # Nhóm thứ nhất
User-agent: Googlebot-News
Allow: /
Disallow: /wp-admin/

User-agent: Bing   # Nhóm thứ 2
User-agent: Slurp
Allow: /
Disallow: /wp-includes/
Disallow: /wp-content/uploads/  # Bỏ qua Hình ảnh WordPress

4. Kiểm soát khoảng thời gian của trình thu thập thông tin web

Yêu cầu của Web Crawlers có thể làm tăng tải máy chủ của bạn, vì vậy bạn cần điều chỉnh tốc độ mà trình thu thập thông tin quét trang web của bạn trong vài giây.

Ví dụ: lệnh sau hướng dẫn tất cả Web Crawlers đợi ít nhất 60 giây giữa các yêu cầu liên tiếp đến máy chủ của bạn.

User-agent: *
Crawl-delay: 60

Ví dụ: Mẫu robots.txt sau hướng dẫn tất cả Web Crawlers truy cập tệp trang web, bỏ qua các thư mục quan trọng và sử dụng sơ đồ trang web để hiểu cấu trúc của trang web.

User-agent: *
Allow: /
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: https://www.example.com/sitemap_index.xml

Để kiểm tra và xem tệp robots.txt của bạn, hãy truy cập trang web của bạn và tải tệp sau.

  • Ví dụ: http://example.com/robots.txt.

Nếu trang web của bạn trả về lỗi 404, hãy tạo tệp robots.txt mới và tải tệp đó lên thư mục gốc tài liệu của bạn.

CleanShot 2022 04 28 at 09.53.58

Hầu hết các Web Crawlers đều tuân theo chỉ thị robots.txt của bạn. Tuy nhiên, các bot xấu và trình thu thập phần mềm độc hại có thể bỏ qua các quy tắc của bạn. Để bảo mật máy chủ của bạn, hãy chặn các bot xấu thông qua tệp .haccess

Ví dụ:

SetEnvIfNoCase User-Agent ([a-z0-9]{2000}) bad_bots
SetEnvIfNoCase User-Agent (archive.org|binlar|casper|checkpriv|choppy|clshttp|cmsworld|diavol|dotbot|extract|feedfinder|flicky|g00g1e|harvest|heritrix|httrack|kmccrew|loader|miner|nikto|nutch|planetwork|postrank|purebot|pycurl|python|seekerspider|siclab|skygrid|sqlmap|sucker|turnit|vikspider|winhttp|xxxyy|youda|zmeu|zune) bad_bots
Order Allow,Deny
Allow from All
Deny from env=bad_bots

Chúc bạn thực hiện thành công.

5/5 - (1 bình chọn)
Robots

Tham gia nhóm hỗ trợ WordPress

Tham gia nhóm Hỗ trợ Server - Hosting & WordPress để cùng nhau hỏi đáp và hỗ trợ các vấn đề về WordPress, tối ưu máy chủ/server.

Group Facebook Group Zalo Group Telegram
ĐỖ TRUNG QUÂN

Mình tên là Đỗ Trung Quân, hiện đang công tác tại AZDIGI với vị trí là SysAdmin. Mình đam mê viết Blog. Vì viết Blog giúp mình trau dồi được nhiều kỹ năng. Học hỏi thêm nhiều kiến thức mới, từ đó mình có thể chia sẻ đến các bạn các bài viết tài liệu bổ ích hơn. Hiện tại mình là admin của Blog DOTRUNGQUAN.INFO - CaiSSL.COM - QuantriVPS.COM. Mới đây mình có tạo ra nhóm Hỗ trợ Server - Hosting & WordPress | Hỗ Trợ Xử Lý Mã Độc WordPress với mục đích gây dựng một cộng đồng nhỏ để mọi người trao đổi kinh nghiệm, kiến thức quản trị VPS. Các thủ thuật, mẹo vặt khi sử dụng VPS. Rất mong nhận được sự ủng hộ của các bạn.

Author Box
Author Image

ĐỖ TRUNG QUÂN

Chuyên viên quản trị hệ thống.

Tư vấn & triển khai dịch vụ

VPS | Hosting | SSL | Mailserver | Website | Sửa lỗi WordPress

Bài viết của tác giả

Hosting/VPS khuyên dùng

Phổ Biến

  • Hướng dẫn tạo SSH Key trên macOS

  • Hướng dẫn sử dụng SSH Key

  • Hướng dẫn cài đặt v2board trên AAPANEL

  • Vấn đề IP Public liên tục bị thay đổi vì sao và cách khắc phục

  • Hướng dẫn cài đặt MTProxy trên Linux

  • Khắc phục lỗi không hiện hình ảnh và mô tả khi share link lên Facebook

BẠN BÈ & ĐỐI TÁC

Thạch Phạm | CỔ Ý CONCEPT | Trương Quốc Cường | Đàm Trung Kiên | Web An Tâm | Phong Đinh | Học Mò | PHUNG.VN | Đăng Đạt

Bạn được quyền sao chép lại nội dung trên website Đỗ Trung Quân, miễn là có dẫn nguồn.

Hosting/VPS được tài trợ bởi AZDIGI - Nhà cung cấp Server Hosting tốt nhất hiện nay

AZDIGI - Nhà cung cấp Server Hosting tốt nhất hiện nay


Back To Top
Đỗ Trung Quân
  • HƯỚNG DẪN
  • LINUX
    • Linux Tricks
    • Distro Linux
      • CentOS/RedHat
      • CloudLinux
      • Ubuntu/Debian
      • AlmaLinux
    • WebServer
      • NGINX
      • Apache
      • LiteSpeed
    • Virtualization
    • Monitoring Tool
      • Zabbix
    • DevOPS
      • Ansible
      • Docker
      • Jenkins
      • AWS
    • Mail Server
    • VPN
  • CONTROL PANEL
    • cPanel
    • DirectAdmin
    • aaPanel
    • FastPanel
    • CyberPanel
    • Easypanel
    • VestaCP
    • CloudPanel
    • HestiaCP
    • Plesk
    • Script VPS
  • DNS
    • Domain
  • CMS
    • WordPress
    • Laravel
  • SECURITY
    • SSL
    • Firewall
  • DỊCH VỤHOT
  • WEB MẪUHOT