cách googlebot hoạt động

googlebot hoạt động như thế nào
googlebot hoạt động như thế nào

bạn có ấn tượng gì khi nhắc đến googlebot, bạn nghĩ đến gì đầu tiên? một con robot được chế tạo bởi google, một thuật toán(hoặc trí tuệ nhân tạo) của google sinh ra để giúp google?

hãy cùng thực tập SEO tìm hiểu về con bot “nhỏ bé dễ thương” này nhé.

googlebot là gì?

googlebot, crawler hay spider đều là thuật ngữ chung để chỉ 1 loại bots chuyên thu thập giữ liệu của các trang web. Googlebot thu thập dữ liệu các trang web thông qua các liên kết.

khi nó tìm thấy 1 đường link, nó đọc và tìm kiếm các thông tin sau đó gửi vào danh sách index để lưu trữ. vậy index là gì?

người đại diện của google đã nói: “the indexing system is a bunch of microservices tanking to each other”. điều này có nghĩa là: hệ thống index là một tập hợp các service nhỏ giao tiếp với nhau nhằm đánh giá và xếp hạng trang web sau khi được crawler thu thập.

googlebot hoạt động như thế nào?

muốn một trang web xuất hiện trong trình tìm kiếm của google thì phải trải qua 3 giai đoạn: đọc dữ liệu, indexing và xếp hạng. 

các bước lập chỉ mục trang web
các bước lập chỉ mục trang web

1.đọc dữ liệu.

đọc dữ liệu là vấn đề mà googlebot phải xử lý.Khi mà trên thế giới có hàng ti tỉ trang web nằm rải rác ở các đường cùng ngõ hẻm trong internet.Thì nhiệm vụ của googlebot là tìm kiếm đường liên kết đến các trang web đó và đưa nó vào một danh sách. trong đó google sẽ quét dữ liệu trên các trang web này và đưa vào quá trình index. nhưng không phải trang web nào googlebot cũng quét như nhau. vậy googlebot quyết định như thế nào về việc crawl trang web của bạn. việc này dấy lên 2 câu hỏi:

a, đánh giá website:

  • mất bao lâu để tôi crawl trang web của bạn?( crawl rate):crawl rate là khả năng mà googlebot có thể crawl trang web với một tốc độ mà không tổn hại tới người dùng hay server. chỉ số này dựa vào số yêu cầu mà website có thể xử lý trong 1 giây.
  • bao lâu thì tôi nên recrawl trang web của bạn?(crawl demand): crawl demand là sự đánh giá của bot về độ nổi tiếng của website, độ tươi mới của nội dung được cập nhập. từ đó xác định xem trang web này có cần thiết phải recrawl không và bao lâu thì recrawl một lần.

ví dụ: tôi có 1 trang web chuyên đăng ảnh gái xinh đi. vì không phải là một công ty hay một tập đoàn lớn nên server của tôi không mạnh, chỉ xử lý được 200 req/s thôi nhưng ngày nào tôi cũng đăng ảnh. vậy bao lâu thì google sẽ quét trang web của tôi. 1 ngày 1 lần, 1 tuần 1 lần, 1 tháng 1 lần,… rất tiếc đây là thuật toán của bot mà google không công khai nên lời khuyên của tôi là: tối ưu hóa trang web của bạn thật tốt để googlebot thu thập dữ liệu nhanh hơn.

sau khi đánh giá trang web của bạn thì googlebot sẽ làm gì tiếp theo:

b, quét dữ liệu.

trước tiên, googlebot sẽ tìm kiếm robots.txt để xem nó có đc phép index trang web này hay không. tại đây có 2 thường hợp xảy ra: nó được phép quét và nó không được phép quét. nếu nó không được phép quét thì “ok, không cho đọc thì thôi” nó bỏ đi. còn nếu được phép quét thì:

nó sẽ tiến hành quét dữ liệu: những thứ như heading, meta tag, đoạn văn bản, hình ảnh, video, mã nguồn, cơ bản là tất cả những gì có trên trang web đó và chuyển dữ liệu cho bên index.

2, indexing dữ liệu

sau khi 1 web được crawl, google sẽ tìm hiểu về trang đó. quá trình này được gọi là indexing. trong đây, google sẽ phân tích chủ đề bài viết, thông tin hình ảnh, video có trong bài viết, nói cách khác là google sẽ cố hiểu xem bài viết này nói về vấn đề gì? thông tin này được lưu trữ trong hệ thống google index, một hệ thống lưu trữ thông tin khổng lồ của google.

cách tăng khả năng indexing của trang:

  • tạo tiêu đề ngắn, có ý nghĩa.
  • sử dụng heading bao quát chủ đề của trang.
  • sử dụng chữ viết thay vì văn bản đề diễn tả nội dung. vì google có thể hiểu một vài hình ảnh hay video nhưng không rõ ràng như cách nó hiểu văn bản. ít nhất, hãy thêm thông tin về hình ảnh hay video bằng văn bản để miêu tả nội dung hình ảnh đó.

3, xếp hạng.

khi 1 người dùng tìm kiếm 1 vấn đề nào đó, google sẽ tìm kiếm trong index những kết quả nó cho là có sự liên quan nhiều nhất đến vấn đề đó. và đưa ra kết quả xếp hạng dựa trên hơn 200 yếu tố. google luôn cân nhắc trải nghiệm người dùng để chọn lựa và xếp hạng trang web. vậy làm sao để tăng hạng trang web:

  • nếu kết quả đưa ra nhắm đến người dùng trong một khoảng địa điểm nhất định hoặc một loại ngôn ngữ nào đó. bạn có thể cho google biết điều này.
  • hãy chắc chắn rằng website của bạn tải nhanh và thân thiện với các thiết bị di động.
  • sử dụng  Webmaster Guidelines để tránh dính bẫy và cải thiện thứ hạng.
  • Xem xét triển khai các tính năng kết quả Tìm kiếm cho trang web của bạn, chẳng hạn như thẻ công thức hoặc thẻ bài viết.
  • sử dụng AMP để trang web load nhanh hơn trên các thiết bị di động.
  • google luôn cải tiến và phát triển thuật toán, cho nên thay vì đoán xem cách xếp hạng của google như thế nào và thiết kế trang web phù hợp thì nên sáng tạo những nội dung mới, tốt mà người dùng sẽ hài lòng và luôn đi theo hướng dẫn của google.

tổng kết

như vậy các bạn đã hiểu về cách hoạt động của googlebot chưa. hãy tổng kết lại những gì tôi đưa ra nhé:

google bot là 1 loại bots chuyên thu thập giữ liệu của các trang web thông qua các liên kết.

google bot đảm nhận công việc đọc dữ liệu trong trang web và gửi đến indexing. ngoài ra googlebot còn có trách nghiệm đánh giá trang web để biết được độ nổi tiếng cũng như sự thay đổi của trang.

indexing là quá trình google phân tích chủ đề bài viết, thông tin hình ảnh, video có trong bài viết. và lưu trữ dữ liệu vào kho thông tin của google.

xếp hạng là quá trình google tìm kiếm trong index những kết quả nó cho là có sự liên quan nhiều nhất đến với truy vấn. 

bạn có thể tham khảo thêm các bài viết dưới dây:

thuật toán google rankbrain là gì?

thuật toán google penguin là gì?

cách googlebot hoạt động
5 (100%) 1 vote

Ý kiến bạn đọc (0)

© 2020 Tài Liệu Học SEO - Tuyển Thực Tập SEO. Thiết kế Website bởi VietMoz.