• Tạo CSR
  • SSL Checker
  • DNS Checker
  • View IP
  • Whois Domain
  • Diễn Đàn Hỏi Đáp
Đỗ Trung Quân
Banner
  • Trang chủ
  • ControlPanel
    • cPanel
    • DirectAdmin
    • Cyber Panel
    • aaPanel
    • FASTPANEL
    • VestaCP
  • WordPress
  • Linux
    • CloudLinux
    • RHEL/CENTOS
    • Ubuntu/Debian
    • Linux Tutorial
    • Mail Server
  • DevOps
    • Ansible
    • Docker
    • Jenkins
    • K8s
    • Zabbix
  • Domain-SSL
    • Domain
    • SSL
  • Dịch vụ
    • Dịch vụ cài đặt tối ưu VPS/Server
    • Dịch vụ WordPress
    • Xác minh cài đặt SSL
    • Dich vụ Backlink
  • Liên Hệ

Cách sử dụng Robots.txt để kiểm soát trình thu thập thông tin web

by Mr Quan 28 Tháng Tư, 2022
written by Mr Quan 28 Tháng Tư, 2022 1 comment 207 views

NỘI DUNG:

  • Cấu trúc của file Robots.txt
  • Các quy tắt chung của Robots.txt
    • 1. Cấp quyền cho Web Crawlers truy cập vào các tệp trang web.
    • 2. Từ chối quyền truy cập của Web Crawlers vào tệp trang web
    • 3. Nhóm các chỉ thị Robots.txt
    • 4. Kiểm soát khoảng thời gian của trình thu thập thông tin web

Tệp robots.txt là một tệp văn bản chứa các quy tắc hướng dẫn trình thu thập thông tin web và công cụ tìm kiếm truy cập hoặc bỏ qua các phần cụ thể trên trang web của bạn. Thường được gọi là robots web, trình thu thập thông tin tuân theo các lệnh trong tệp robots.txt trước khi quét bất kỳ phần nào trên trang web của bạn. Tệp robots.txt phải nằm trong thư mục gốc của trang web khi đó các trình thu thập thông tin mới có thể thu thập web.

Cách sử dụng Robots.txt để kiểm soát trình thu thập thông tin web

Và trong bài viết này mình sẽ giải thích cách sử dụng robots.txt để kiểm soát trình thu thập thông tin web. Và trước khi tạo các quy tắc cho tệp. Bạn hãy tìm hiểu qua cấu trúc của file Robots.txt nhé.

Cấu trúc của file Robots.txt

File Robots.txt hợp lệ sẽ chứa một hoặc nhiều lệnh được khai báo ở định dạng: field, colon, value.

  • User-agent: Khai báo quy tắc áp dụng cho trình thu thập thông tin web.
  • Allow: Chỉ định đường dẫn mà trình thu thập thông tin web sẽ truy cập.
  • Disallow: Khai báo đường dẫn mà trình thu thập thông tin web không được truy cập.
  • Sitemap: URL đầy đủ đến sơ đồ cấu trúc trang web.
robots txt

Value phải bao gồm các đường dẫn tương đối cho các trường Allow, Disallow, Sitemap (URL hợp lệ) cho sơ đồ trang web và tên trình thu thập thông tin web cho trường User-agent. Tên User-agent phổ biến và công cụ tìm kiếm tương ứng mà bạn có thể khai báo một cách an toàn trong tệp robots.txt bao gồm:

  • Alexa
    • ia_archiver
  • AOL
    • aolbuild
  • Bing
    • Bingbot
    • BingPreview
  • DuckDuckGo
    • DuckDuckBot
  • Google
    • Googlebot
    • Googlebot-Image
    • Googlebot-Video
  • Yahoo
    • Slurp
  • Yandex
    • Yandex

Các quy tắt chung của Robots.txt

1. Cấp quyền cho Web Crawlers truy cập vào các tệp trang web.

  • Cho phép một trình thu thập thông tin web truy cập tất cả các tệp trang web.
User-agent: Bingbot
Allow: /
  • Cho phép tất cả các Web Crawlers truy cập vào các tệp trang web.
User-agent: *
Allow: /
  • Cấp cho Web Crawlers quyền truy cập vào một tệp.
User-agent: Bingbot
Allow: /documents/helloworld.php
  • Cấp cho tất cả các Web Crawlers quyền truy cập vào một tệp duy nhất.
User-agent: *
Allow: /documents/helloworld.php

2. Từ chối quyền truy cập của Web Crawlers vào tệp trang web

  • Từ chối quyền truy cập của Web Crawlers vào tất cả các tệp trang web.
User-agent: Googlebot
Disallow: /
  • Từ chối tất cả các Web Crawlers truy cập vào các tệp trang web.
User-agent: *
Disallow: /
  • Từ chối quyền truy cập của Web Crawlers vào một hình ảnh.
User-agent: MSNBot-Media
Disallow: /documents/helloworld.jpg
  • Từ chối quyền truy cập của Web Crawlers vào tất cả các hình ảnh thuộc một loại cụ thể.
User-agent: MSNBot-Media
Disallow: /*.jpg$

Ngoài ra bạn cũng có thể từ chối một Web Crawlers hình ảnh cụ thể truy cập vào tất cả các hình ảnh của trang web.

Ví dụ: Quy tắc sau đây hướng dẫn các hình ảnh của Google bỏ qua tất cả và xóa các hình ảnh đã được lập chỉ mục khỏi cơ sở dữ liệu.

User-agent: Googlebot-Image
Disallow: /
  • Từ chối Web Crawlers truy cập vào tất cả các tệp ngoại trừ một tệp.
User-agent: *
Disallow: /~documents/helloworld.php
  • Để cho phép quyền truy cập vào nhiều tệp, hãy sử dụng và lặp lại quy tắc Không cho phép (Disallow)
User-agent: *
Disallow: /~documents/hello.php
Disallow: /~documents/world.php
Disallow: /~documents/again.php
  • Hướng dẫn tất cả Web Crawlers truy cập tệp trang web, nhưng bỏ qua một tệp cụ thể.
User-agent: *
Allow: /
Disallow: /documents/index.html
  • Hướng dẫn tất cả các Web Crawlers bỏ qua một thư mục cụ thể. Ví dụ: wp-admin.
User-agent: *
Disallow: /wp-admin/

3. Nhóm các chỉ thị Robots.txt

Để áp dụng chỉ thị robots.txt theo nhóm, hãy khai báo nhiều User-agent và áp dụng quy tắc duy nhất.

Ví dụ:

User-agent: Googlebot    # Nhóm thứ nhất
User-agent: Googlebot-News
Allow: /
Disallow: /wp-admin/

User-agent: Bing   # Nhóm thứ 2
User-agent: Slurp
Allow: /
Disallow: /wp-includes/
Disallow: /wp-content/uploads/  # Bỏ qua Hình ảnh WordPress

4. Kiểm soát khoảng thời gian của trình thu thập thông tin web

Yêu cầu của Web Crawlers có thể làm tăng tải máy chủ của bạn, vì vậy bạn cần điều chỉnh tốc độ mà trình thu thập thông tin quét trang web của bạn trong vài giây.

Ví dụ: lệnh sau hướng dẫn tất cả Web Crawlers đợi ít nhất 60 giây giữa các yêu cầu liên tiếp đến máy chủ của bạn.

User-agent: *
Crawl-delay: 60

Ví dụ: Mẫu robots.txt sau hướng dẫn tất cả Web Crawlers truy cập tệp trang web, bỏ qua các thư mục quan trọng và sử dụng sơ đồ trang web để hiểu cấu trúc của trang web.

User-agent: *
Allow: /
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: https://www.example.com/sitemap_index.xml

Để kiểm tra và xem tệp robots.txt của bạn, hãy truy cập trang web của bạn và tải tệp sau.

  • Ví dụ: http://example.com/robots.txt.

Nếu trang web của bạn trả về lỗi 404, hãy tạo tệp robots.txt mới và tải tệp đó lên thư mục gốc tài liệu của bạn.

CleanShot 2022 04 28 at 09.53.58

Hầu hết các Web Crawlers đều tuân theo chỉ thị robots.txt của bạn. Tuy nhiên, các bot xấu và trình thu thập phần mềm độc hại có thể bỏ qua các quy tắc của bạn. Để bảo mật máy chủ của bạn, hãy chặn các bot xấu thông qua tệp .haccess

Ví dụ:

SetEnvIfNoCase User-Agent ([a-z0-9]{2000}) bad_bots
SetEnvIfNoCase User-Agent (archive.org|binlar|casper|checkpriv|choppy|clshttp|cmsworld|diavol|dotbot|extract|feedfinder|flicky|g00g1e|harvest|heritrix|httrack|kmccrew|loader|miner|nikto|nutch|planetwork|postrank|purebot|pycurl|python|seekerspider|siclab|skygrid|sqlmap|sucker|turnit|vikspider|winhttp|xxxyy|youda|zmeu|zune) bad_bots
Order Allow,Deny
Allow from All
Deny from env=bad_bots

Chúc bạn thực hiện thành công.

5/5 - (1 bình chọn)

Hãy tham gia Nhóm Hỗ Trợ VPS Hosting để cùng học hỏi và trao đổi kiến thức nhé. Chúc bạn thành công.

Robots
Share 0 FacebookTwitterPinterestTelegramEmail
Mr Quan

Mình tên là Đỗ Trung Quân, hiện đang công tác tại AZDIGI với vị trí là SysAdmin. Mình đam mê viết Blog. Vì viết Blog giúp mình trau dồi được nhiều kỹ năng. Học hỏi thêm nhiều kiến thức mới, từ đó mình có thể chia sẻ đến các bạn các bài viết tài liệu bổ ích hơn. Hiện tại mình là admin của Blog dotrungquan.info - linuxcanban.com - it.info.vn. Mới đây mình có tạo ra một Nhóm Hỗ Trợ VPS Hosting với mục đích gây dựng một cộng đồng nhỏ để mọi người trao đổi kinh nghiệm, kiến thức quản trị VPS. Các thủ thuật, mẹo vặt khi sử dụng VPS. Rất mong nhận được sự ủng hộ của các bạn.

Bạn sẽ thích bài viết này

Hướng dẫn nâng cấp theme Flatsome lên bản...

31 Tháng Mười Hai, 2022

Hướng dẫn ngăn chặn Copy trên website WordPress

30 Tháng Mười Hai, 2022

Tăng tốc website WordPress với WP Fastest Cache

21 Tháng Mười Hai, 2022

Xóa bỏ đuôi ?v=e14da64a5617 sau tên miền trong...

9 Tháng Mười, 2022

Xử lý lỗi temp-write-test trong WordPress

6 Tháng Chín, 2022

13 cách bảo vệ website WordPress bạn luôn...

15 Tháng Mười, 2018

Hướng dẫn sửa lỗi Scrape key check failed....

5 Tháng Tám, 2022

Hướng dẫn kết nối QUIC cloud LiteSpeed Cache...

28 Tháng Bảy, 2022

Cách ẩn thông báo “PHP Update Required” trên...

25 Tháng Bảy, 2022

Hướng dẫn dọn dẹp bảng postmeta trong WordPress

21 Tháng Bảy, 2022
Theo dõi
Đăng nhập
Thông báo của
guest
guest
1 Comment
Cũ nhất
Mới nhất Được bỏ phiếu nhiều nhất
Phản hồi nội tuyến
Xem tất cả bình luận
wpdiscuz   wpDiscuz

Nhóm Hỗ Trợ Hosting VPS

Nhóm Hỗ Trợ VPS Hosting

Tin Khuyến Mãi

Thông tin về tôi

Thông tin về tôi

Mình tên là Đỗ Trung Quân, hiện đang công tác tại AZDIGI với vị trí là SysAdmin. Mình đam mê viết Blog. Vì viết Blog giúp mình trau dồi được nhiều kỹ năng. Học hỏi thêm nhiều kiến thức mới, từ đó mình có thể chia sẻ đến các bạn các bài viết tài liệu bổ ích hơn.

Facebook Instagram Youtube Telegram

BÀI VIẾT PHỔ BIẾN

  • 1

    Hướng dẫn sử dụng Docker trên AAPANEL

  • 2

    Hướng dẫn cấu hình AZ Redis tại AZDIGI

  • 3

    Hướng dẫn cài đặt Mautic trên AAPANEL

  • 4

    Đăng ký hosting miễn phí tại AZDIGI

Phản hồi gần đây

  • Hồng Quang trong Khắc phục lỗi Import Woocommerce Product CSV WordPress
  • Quân trong Khai Lộc Đầu Xuân – Ưu đãi 50%, ra mắt Pro Hosting phiên bản NVMe
  • Top 10 Hiển thị dụng hình ảnh website trên Facebook trong Khắc phục lỗi không hiện hình ảnh và mô tả khi share link lên Facebook
  • Nguyễn Công Phúc trong Khai Lộc Đầu Xuân – Ưu đãi 50%, ra mắt Pro Hosting phiên bản NVMe

Top Commentators

  • Anh Quân Anh Quân (128)
  • nghĩa nghĩa (8)
  • Bùi Đức Hiệp Bùi Đức Hiệp (7)
  • David Do David Do (7)
  • Bamboo Bamboo (5)
  • Bình Minh Bình Minh (5)
  • Cai Việt Hoàng Cai Việt Hoàng (5)
  • Duc Thuan Duc Thuan (5)

BẠN BÈ & ĐỐI TÁC

Thạch Phạm | aaPanel | Linux Căn Bản | Bảo Trần | Trương Quốc Cường | VPS Căn Bản | Nguyễn Hoàng Nam | Đàm Trung Kiên | CaiSSL.com

Hosting/VPS được tài trợ bởi AZDIGI - Nhà cung cấp Server Hosting tốt nhất hiện nay

Bạn được quyền sao chép lại nội dung trên website Đỗ Trung Quân, miễn là có dẫn nguồn.


Back To Top
Đỗ Trung Quân
  • Trang chủ
  • ControlPanel
    • cPanel
    • DirectAdmin
    • Cyber Panel
    • aaPanel
    • FASTPANEL
    • VestaCP
  • WordPress
  • Linux
    • CloudLinux
    • RHEL/CENTOS
    • Ubuntu/Debian
    • Linux Tutorial
    • Mail Server
  • DevOps
    • Ansible
    • Docker
    • Jenkins
    • K8s
    • Zabbix
  • Domain-SSL
    • Domain
    • SSL
  • Dịch vụ
    • Dịch vụ cài đặt tối ưu VPS/Server
    • Dịch vụ WordPress
    • Xác minh cài đặt SSL
    • Dich vụ Backlink
  • Liên Hệ
wpDiscuz