Google Index là gì? Tối ưu Google Crawl Budget

Theo như mình đã đề cập thì Google Index là một cơ chế chính trong 3 nhiệm vụ của bất kì search engine (Bing, Yandex, Google) nào đều có. Chúng có vài trò quan trọng trong việc quyết định website của bạn có được ranking hay không trong kết quả tìm kiếm. Vậy Google Index là gì và tại sao nó lại quan trọng trong việc ranking website, chúng ta sẽ làm rõ qua bài viết này nhé mấy anh em.

Google Index là gì?

Một search engine thường sẽ có 3 function chính: Crawling, IndexingRanking.

Cơ chế Indexing trong Google hay Google Index sẽ có nhiệm vụ lưu trữ và sắp xếp nội dung tìm thấy trong quá trình thu thập thông tin. Khi một trang nằm trong chỉ mục, nó sẽ được hiển thị như là kết quả của các truy vấn có liên quan.

Vậy điều đó có nghĩa là khi bạn muốn ranking website điều đầu tiên các bạn cần là website mình phải được index trên Google. Làm sao để biết Google có Index hay không thì bạn phải dùng đến Web Master Tools nhé

google index la gi? web master tools
Giao diện Web Master Tools

Ok, câu chuyện không hề đơn giản ở đó, để được index thì chúng ta cần phải được Google Crawl qua website đã. Sau khi đã hiểu được cơ chế Google Index là gì thì chúng ta sẽ cùng làm tìm hiểu Google Crawl là gì?

Khái niệm về Google Crawl

Một Search Engine sẽ hoạt động tuần tự theo thứ tự Crawling->Indexing->Ranking. Để được Google Index thì chúng ta cần phải thông qua việc Crawling trước đã.

Google thường không dành nhiều thời gian để Crawling các page của một trang web mặc cho bạn đã có sitemaps và thêm nó vào Web Master Tools.

>>  Web Server - Tản mạn PHP Handler và Apache

Đặc biệt với những website mới việc được Google Bot để ý sẽ càng khó. Bởi vì mình không muốn bài viết dài dòng nên việc giới thiệu về Google Crawl Budget sẽ được đề cập trong bài viết mới.

Chung quy thì việc được Google crawl sẽ phụ thuộc vào Google Crawl Budget. Tada chúng ta lại có thêm một khái nhiệm mới. OK thì ở đây mình sẽ chỉ cách để các bạn tối ưu Google Crawl Budget thôi còn bạn nào muốn biết sâu thì hẹn vào một bài viết khác nhé.

Cách để tối ưu Google Crawl Budget

OK ở đây, chúng ta hãy cùng xem các điều thực sự cải thiện số lượng trang mà Google có thể thu thập dữ liệu trên trang web của bạn.

Giảm lỗi HTTP Request

Để Google có thể crawl được các trang trên website, bạn phải đảm bảo rằng các trang này sẽ trả về một trong hai HTTP status có thể có: 200 (OK) hoặc 301 (redirect).

Tất các HTTP status còn lại đều ko tốt cho Google Bot. Để tìm ra điều này, bạn phải xem lại server logs của trang web. Google Analytics và hầu hết các phần mền phân tích khác (newrelic, uptime robot) chỉ dùng để theo dõi các hoạt động của website. Về WordPress các anh em có thể dùng uptime robot nhé.

uptimerobot google index
HUNGPHAMDEVWEB cũng đang sử dụng dịch vụ của UptimeRobot để monitor

Khi bạn đã đăng nhập vào server logs của mình, hãy thử tìm các lỗi phổ biến và sửa chúng. Cách đơn giản nhất để thực hiện điều đó là lấy tất cả các URL không trả về 200 hoặc 301 và sau đó chỉnh lại tần suất chúng được Google Bot truy cập trong sitemaps

Ngoài cách trên bạn có thể phải sửa lại code để khiến trang đó hoạt động trở lại bình thường. Hoặc bạn có thể phải chuyển hướng URL đó qua trang khác.

>>  Hosting WordPress, Cách Scale Up WordPress

Chặn các phần trong trang web của bạn

Nếu bạn có các phần trên trang web của mình và thực sự không muốn chúng phải có trong Google, hãy chặn chúng bằng robot.txt. Tất nhiên chỉ làm điều này nếu bạn biết những gì bạn đang làm. Vì chúng sẽ ảnh hướng đến SEO của website.

Giảm redirect

Khi bạn chuyển hướng một URL, Google sẽ thêm URL đó vào danh sách việc cần làm. Nó sẽ không theo dõi ngay lập tức, nó chỉ thêm URL đó vào danh sách việc cần làm và cứ tiếp tục. Điều này chỉ làm bạn tốn thêm Crawl Budget, nên bạn hãy thận trọng khi sử dụng nhiều Redirect trên website của mình.

Nhất là phần cơ chế Redirects trong SEO Yoast Preium khi bạn delete một page bất kì. Hãy nhớ kiếm tra lại và remove list Redirects đó với những URL quá hạn 30 ngày kể từ ngày bạn xoá trang.

wordpress seo premium redirects
Cơ chế redirect trong SEO Yoast Premium

Xây dựng backlinks

Điều này nói thì dễ, nhưng khó để làm. Nhưng không thể bác bỏ việc nhận được nhiều liên kết từ website khác không chỉ giúp bạn tiết kiếm Crawling Budget của Google mà còn là một cách PR khá tốt, để tăng chỉ số domain rating và khả năng index website.

Kết Luận

Nếu bạn đang làm tốt việc bảo trì trang web của bạn, hoặc trang web của bạn tương đối nhỏ, thì có lẽ nó không cần thiết. Nếu trang web của bạn có kích thước trung bình và được duy trì tốt, thì nó khá dễ thực hiện dựa trên các thủ thuật trên. Hy vọng bài viết của mình giải đáp được thắc mắc của một số bạn lâu nay về khá niệm Google Index là gì?

Xin chào các đồng chí tôi là Phạm Phi Hùng, tác giả của blog Hung Pham Dev Web Tôi là một Front-end Developer, kiêm writer, quay phim dạo, sửa máy dạo và làm một số ngành nghề khác nữa