Sitemap, robots.txt là gì ?

Mỗi công cụ tìm kiếm như Google, BING hay Yahoo đều có một con Bot của riêng mình. Chúng sẽ lùng sục trên website của chúng ta để tìm kiếm và phân loại từ khóa. Nhưng các công cụ tìm kiếm khó có thể duyệt hết các page trong website hoặc không biết page nào có độ ưu tiên cao hơn, page nào ta không muốn xuất hiện trên kết quả tìm kiếm.
Đây là lúc Sitemap và Robots.txt phát huy tác dụng, chúng sẽ như một chiếc bản đồ giúp dẫn đường chỉ lối khi bot crawl dữ liệu.

Sitemap là gì?

XML Sitemap đúng với cái tên của nó, được xem như là một tấm bản đồ của website, nó thực hiện hai chức năng chính sau:

Với người dùng:
Giúp người dùng biết được website có những mục nào. Giúp phục vụ nhu cầu và trải nghiệm người dùng
Với công cụ tìm kiếm
Sitemap sẽ giúp “dẫn đường chỉ lối” cho bot tìm kiếm đi thu thập thông tin.
Sitemaps bao gồm những tệp file XML liệt kê tất cả những đường dẫn (URL) có trong website cũng với siêu dữ liệu bổ sung cho mỗi đường dẫn đó.
Ví dụ :
– Bài viết được cập nhật lần cuối khi nào
– Mức độ thay đổi thường xuyên của nội dung
– Mức độ ưu tiên so với các nội dung khác
…….
Điều này sẽ công cụ tìm kiếm (Chủ yếu là Google) có thể thu thập và xử lý thông tin một cách thông minh & chính xác hơn. Hơn nữa đây cũng là một tiêu chí vô cùng quan trọng để các công cụ tìm kiếm đánh giá website của chúng ta.
Việc tạo sitemap đặc biệt quan trọng đối với các website mới, vì những website mới luôn gặp khó khăn về vấn đề index , XML sitemap sẽ thay mặt bạn nói với Google “Tôi có website mới, hãy vào do thám và index website của tôi đi!”.

Robots.txt là gì?

Nói một cách ngắn gọn và dễ hiểu nhất thì Robots.txt là một dạng text đặc biệt ( không phải là HTML hay XML giống sitemap ). Nó giúp cho các webmaster linh hoạt hơn và nhận thức được việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.

VD: File robots.txt của https://sotatek.com

User-agent: *
Crawl-delay: 10
Disallow: /admin
Disallow: /cgi-bin/

Robots.txt hoạt động như thế nào ?

Ở phần dưới mình sẽ liệt kê những chức năng chính của robots.txt đi kèm với ví dụ luôn cho các bạn dễ hiểu nhé.
1. Không cho bot truy cập vào những thư mục không mong muốn
Lâý luôn ví dụ ở trên nhé

Disallow: /cgi-bin/

Điều này có nghĩa là cho phép tất cả các loại bot thu thập tất cả các thư mục chỉ trừ thư mục cgi-bin

2. Chặn 1 trang khỏi search engine

Ở đây bạn sẽ thấy khai báo chặn trang admin, lý do thì bạn biết rồi đấy không ai muốn index trang quản trị của mình cả.

Disallow: /admin

3. Đặt thời gian delay giữa mỗi request của bot

Crawl-delay: 10

Thời gian delay giữa mỗi request của bot đang là 10s. Nó sẽ giúp server của bạn giảm tải khi không cho phép bot gửi request liên tục.

4. Chặn một bot nào đó

User-agent:SpamBot
Disallow: /

User-agent: *
Disallow: /cgi-bin/

Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Như ví dụ ở trên thì SpamBot đã bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục cgi-bin.
Tương tự bạn cũng có thể thay SpamBot bằng Googlebot của Google, Bingbot của Bing hay Slurp của Yahoo để chặn các search engine trên index website của mình.

Lưu ý khi sử dụng robots.txt:

Mỗi một câu lệnh nên viết trên 1 dòng.
Robots.txt có phân biệt chữ hoa và chữ thường.
Không chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
Không được viết thừa hay thiếu khoảng trắng.

Như vậy qua bài viết trên chúng ta cũng đã phần nào hiểu thêm về sitemap và robots.txt đúng không nào. Rất mong nhận được sự đóng góp thêm của các bạn.