Mẫu file robots.txt chuẩn dành cho WordPress

0
77
Mẫu file robots.txt chuẩn dành cho WordPress

File robots.txt là gì?

Robots.txt được hiểu một cách ngắn ngọn là file được tạo ra nhằm mục đích quản lý việc tìm kiếm của các bộ máy tìm kiếm(hay còn gọi là các con bot) một cách có chủ đích của webmaster về các thông tin có thể thu thập hoặc các thông tin không thể thu thập . Từ đó làm cho website có tính bảo mật cao hơn và trở nên SEO tốt hơn.

Có thể xem robots.txt như là một bản quy tắc về website của bạn, khi bộ máy tìm kiếm tìm tới website của bạn nó sẽ đọc dữ liệu trong file robots.txt để biết nó có quyền thu thập thông tin hay không, hay là nếu có quyền thì có quyền thu thập ở nhửng thư mục nào?

Hiểu rõ được tầm quan trọng của file robots.txt nên việc cấu hình cho nó phải hết sức chú ý và cẩn thận. Để làm được điều này trước tiên bạn phải nắm được các quy tắc tạo thành một file robots.txt.

Các quy tắc để thiết cấu hình một file robots.txt

Trong một file robots.txt thông thường có các mục như sau:

    • User-agent : Quản lý bộ máy tìm kiếm nào có thể truy cập website của bạn.
    • Disallow: Chặn bộ máy tím kiếm truy cập vào một phần nào đó trong website mà bạn quy định.
    • Allow: Cho phép bô máy tìm kiếm truy câp vào phần nào đó trong website mà bạn quy định.
    • Sitemap: Là bản đồ đường đi hướng dẫn cho bộ máy tìm kiếm đi theo hướng mà bạn quy định

Một vài ký tự như:

  • * : Biểu thị cho tất cả.
  • / : Biểu thị cho đường dẫn thư mục.
  • : Biểu thị cho dòng comment.

Ví dụ về thiết kế file robots.txt.

User-agent: * 
#Cho phép tất cả bộ máy tìm kiếm(bot) truy cập vào trang web

Disallow: /wp-admin/ 
#Chặn bot truy cập vào thư mục wp-admin

Allow: /  
# Cho phép bot truy cập vào tất cả thư mục trừ thư mục wp-admin đã bị chặn ở trên.

# VD cấu hình riêng cho một bộ máy tìm kiếm khác(Googlebot)

User-agent: Googlebot

Disallow: /wp-includes/  
#Ngoài việc chặn thư mục /wp-admin/ riêng Googlebot sẽ bị chặn truy cập vào thư mục wp-includes/ nữa.

Sitemap: http://websitecuaban.com/sitemap_index.xml   
#Hướng dẫn cho bot đi đến file index

Với ví dụ vừa rồi chắc bạn cũng đã nắm  được cách cấu hình mộ file robots.txt rồi chứ. Một điểm cần lưu ý là robots.txt phân biệt được chữ hoa và chữ thường, khoảng trắng hay các ký tự lạ nên hết sức cẩn thận để tránh sai xót.
Chú ý
File robots.txt được tạo ra phải nằm ngang hàng với file index.php và cũng phải được đặt tên đúng “robots.txt”, tránh trường hợp đặt tên “Robots.txt” hay “RoBots.txt”.

Mẫu file robots.txt chuẩn dành cho WordPress

Và đây là file robots.txt chuẩn dành chung cho các website wordpress.

User-agent: *
 Disallow: /wp-admin/
 Disallow: /wp-includes/
 Disallow: /wp-content/plugins/
 Allow: /wp-content/uploads/
 Sitemap: http://website_của_bạn/sitemap_index.xml
 Sitemap: http://website_của_bạn/post-sitemap.xml
 Sitemap: http://website_của_bạn/page-sitemap.xml
Loading...