File Robots.txt và tác dụng File Robots.txt trong SEO

Tệp Robost.txt

File Robots.txt là gì

File Robots.txt là một dạng thư mục gốc nằm trong một website. File này được các webmaster tạo ra nhằm quản lý quyền truy cập của các con bọ tìm kiếm. Cụ thể: Nó giúp các webmaster linh hoạt hơn trong việc cho phép bot lập chỉ mục hoặc không cho phép lập chỉ mục ở một khu vực nào đó trong website.

Robots.txt là gì

Robots.txt là một dạng text đặc biệt, không phải là HTML hay là một loại nào khác. Robots.txt giúp cho webmaster linh hoạt hơn trong việc quản lý index của công cụ tìm kiếm. Nó hướng dẫn cho con bọ của công cụ tìm kiếm được phép index hay không được phép index. Trong một website có rất nhiều mục không cần phải cho con bọ tìm kiếm index tới như admin, image,… Vì vậy bạn phải chặn bọ tìm kiếm, không cho phép index những link không quan trọng, để bọ tìm kiếm có thời gian index cho các link quan trọng khác.

Mẫu code

Tham khỏa thêm:

Domain Authority- độ uy tín của tên miền là gì
Vai trò của Internal Link trong làm SEO
Google Sandbox – Cách giải thoát google Sandbox trong SEO

Tầm quan trọng của tệp Robots.txt

Nếu không có file Robots.txt thì bọ tìm kiếm sẽ vào tất các trang có sẵn trên trang website của bạn. Nó sẽ thu thập tất cả dữ liệu để thêm vào chỉ mục index của công cụ tìm kiếm. Như vậy bọ tìm kiếm sẽ tốn thời gian vào những trang không cần thiết, bỏ qua những trang rất quan trọng mà bạn muốn SEO.

Nếu như file Robots.txt không được định dạng tốt vì nó bị dính cấu hình sai. Thì con bọ của các công củ tìm kiếm không thể hiểu được nội dung của file. Con bọ có thể truy cập vào tất cả các trang trên Website của bạn như trường hợp không có file robots.txt.

Nếu bạn vô tình chặn các công cụ tìm kiếm truy cập vào trang website của bạn thì đó là một vấn đề nguy hại lớn cho website của bạn. Đối với website mới xây dựng thì công cụ tìm kiếm sẽ không thể thu thập thông tin để lập chỉ mục index. Đối với những site đã có index thì công cụ tìm kiếm sẽ dần xóa hết bất kỳ trang nào trong chỉ mục đã được index vì con bọ tìm khiếm không thể thu thập thông tin được nữa.

Bạn nên có Robots.txt ngay cả khi trang web của bạn không muốn loại bỏ bất kỳ trang hay thư mục nào khỏi sự xuất hiện trong kết quả công cụ tìm kiếm.

Các tệp lệnh trong File Robots.txt

File Robots.txt được nằm trong thư mục gốc của website. Bạn muốn kiểm tra website của bạn có Robots.txt hay chưa thì bạn chỉ cần thêm Robots.txt sau tên miền của bạn. Nếu như bạn truy cập vào được thì website bạn đã có Robots.txt.

kiểm tra file robots.txt

Một số lệnh trong File Robots.txt

  • User-agent : tên loại của bọ tìm kiếm
  • Allow : cho phép
  • Disallow : không cho phép
  • Sitemap : đường dẫn sơ đồ của trang web

Ghi chú: dấu * thay cho mỗi chỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có tên như googlebot, bingbot, cocobot…. Nếu bạn muốn chặn một loại bot củ thể thì ta phải khai báo tên công cụ của loại bot đó.

Robots.txt áp dụng tốt trong SEO

Sử dụng File Robots.txt chặn google (áp dụng với website trong quá trình xây dựng)

Trong quá trình bạn đàng xây dựng để hoàn thiện website, là giai đoạn website trong quá trình demo chưa có nội dung, hình ảnh, cấu trúc… thì bạn nên chặn google lập chỉ mục index trong thời gian này.

Cấu trúc File Robots.txt chặn:

User-agent : *
Disallow: /

Sử dụng File Robots.txt để quy định cho nội dung nào được lập chỉ mục index, nội dung nào không được lập chỉ mục index.

Cấu trúc danh mục website

Ví dụ: tôi có 1 website là domain.com và có 2 danh mục apple (domain.com/apple) và samsung (domain.com/samsung)

Danh mục samsung chứa những bài viết kém chất lượng copy để kéo view nên tôi không muốn google đọc và index nội dung này. Bởi thế nên tôi sẽ chặn nó.

Cấu trức là:

User-agent : *
Disallow: /samsung

Nghĩa là chặn tất cả đường dẫn nào có từ samsung sau dấu /

Sử dụng File Robots.txt để quy định chặn một hình ảnh nào đó

cấu trúc robots.txt chặn hình ảnh

User-agent : *
Disallow: /images/tenhinhanhcanchan.jpg

Nghĩa là chặn 1 hình ảnh nào đó từ website của bạn, ngăn không cho google lập chỉ mục index ảnh đó.

Sử dụng File Robots.txt để quy định chặn tất cả các dữ liệu trong thư mục trừ file nào đó.

Câu trúc:

User-agent: *
Disallow: /thumucbichan/
Allow : /thumucbichan/filekhongbichan.html

Có nghĩa là chặn bọ tìm kiếm tất cả dữ liệu trong thư mục /thumucbichan/ nhưng lại cho phép lập chỉ mục index file /filekhongbichan.html

Cách kiểm tra và xác nhận lệnh hợp lệ robots.txt

Có 2 cách để kiểm tra và xác nhận lệnh hợp lệ robots.txt

Bạn có thể xem nội dung robots.txt của mình bằng cách dùng trình duyệt để kiểm tra link domain/robots.txt.

kiểm tra file robots.txt

Hoặc bạn có thể kiểm tra và xác nhận link thông qua tùy chọn robots.txt Tester của Google search console.

Đăng nhật vào tài khoản Google search console của bạn => vào nút tùy chọn Crawl rồi nhấn vào nút robots.txt Tester  => nút TEST.

Bạn thấy nút test chuyển sang màu xanh là bạn đã cho phép(Allow) con bọ tìm kiếm lập chỉ mục.

robots.txt cho phép index

Bạn thấy nút test chuyển sang màu đỏ là bạn đã không cho phép (Disallow) con bọ tìm kiếm không được phép lập chỉ mục. Bên cạnh đó công cụ này còn chỉ ra vì sao link này bị chặn để tối ưu file robots.txt trong SEO.

robots.txt không cho phép index

 

Robots.txt với WordPress

Tất cả những gì mà bạn đọc về robots.txt cũng là áp dụng cho trang web wordpress.

WordPress mặc định sử dụng file robots.txt ảo. Điều này đồng nghĩa với việc bạn không thể trực tiếp chỉnh sửa file hoặc tìm thấy nó trong thư mục gốc của bạn. Bạn có thể xem nội dung của file này bằng cách truy cập link có định dạng như sau:

http://ten-mien-cua-ban/robots.txt

Nội dung mặc định của wordpress Robots.txt là:

User-agent: *
Disallow: /wp-admin/
Allow : /wp-admin/admin-ajax.php

Sử dụng Plugins Yoast SEO thì mọi thứ sẽ dể dàng hơn với việc chỉnh sửa file robots.txt bằng các thao tác SEO – tools – File editor và chỉnh nội dung robots.txt sau đó lưu lại.

Tối ưu file wordpress robots txt

Thêm một lưu ý khi bạn mới xây dựng website wordpress bạn nên lựa chọn cấu hình chặn tất cả các công cụ tìm kiếm trên trang web của bạn. Sau khi bạn hoàn thiện nội dung trên website thì bạn phải vào mở ra cho các công cụ tìm kiếm được phép thu thập thông tin và lập chỉ mục index.

setting reading wordpress cho phép tìm kiếm

Robots.txt rất tốt cho SEO

Bạn có thể kiểm tra Robots.txt của bạn và đảm bảo là bạn không chặn bất kỳ phần nào của web mà bạn muốn xuất hiện trong công cụ tìm kiếm.

Google trong quá trình thu thập dữ liệu lập chỉ mục index có thể xem trang website như một người dùng thực. Bạn cần phải cho phép con bọ tìm kiếm đọc các tập tin JS và CSS. Như vậy nó mới có thể hoạt động đúng cách.

Bạn đang sử dụng WordPress bạn không cần phải chặn truy cập các thư mục wp-admin, wp-include. WordPress sẽ thực hiện công việc tuyệt vời này bằng thẻ meta robots.

Bạn không nên cố gắng chỉ định các quy tắc khác nhau cho mỗi bọ của công cụ tìm kiếm vì có thể gây nhầm lẫn và khó để cập nhập. Sử dụng “User-agent : *” là tốt nhất và đồng thời cung cấp một bộ quy tắc cho tất cả các quy trình.

Hy vọng rằng bài viết này mang đến cho bạn những kiến thức bộ ích về File robots.txt . Tầm quan trọng và ảnh hưởng của nó đối với công củ tìm kiếm. Cũng như cách tối ưu file robots.txt để nâng hiệu quả tốt nhất trong SEO.

File Robots.txt và tác dụng File Robots.txt trong SEO
5 (100%) 2 votes

Ý kiến bạn đọc (0)

© 2018 Tài Liệu Học SEO - Tuyển Thực Tập SEO. Thiết kế Website bởi VietMoz.