Bí Ẩn Trong Tập Tin Robots.txt của John Mueller
Hành trình kỳ lạ của tập tin robots.txt của John Mueller bắt đầu khi một người dùng Reddit đăng rằng trang web của John Mueller bị gỡ khỏi chỉ mục, cho rằng nó đã vi phạm hệ thống Nội dung Hữu ích của Google. Tuy nhiên, sự thật không đến nỗi dramatice như vậy nhưng vẫn có chút kỳ lạ.
Phần đầu tiên của tập tin robots.txt của Mueller chứa một lời gợi ý ẩn dành cho những người tò mò.
Phần đầu tiên không phải là điều thường thấy mỗi ngày là một lệnh Disallow trong tập tin robots.txt. Ai lại sử dụng tập tin robots.txt để nói với Google không được quét tập tin robots.txt của họ? Bây giờ chúng ta biết.
Phần tiếp theo của tập tin robots.txt chặn tất cả các công cụ tìm kiếm khỏi quét trang web và tập tin robots.txt.
Giải Thích Của John Mueller
Mueller dường như rất thích thú với việc mọi người quan tâm đến tập tin robots.txt của mình và anh đã đăng một giải thích trên LinkedIn về điều gì đang xảy ra.
Anh viết:
"Nhưng, vấn đề với tập tin là gì? Và tại sao trang web của bạn bị gỡ khỏi chỉ mục?"
Tiếp theo, anh nói rằng lệnh nofollow trong tập tin robots.txt chỉ đơn giản là để ngăn nó được chỉ mục như một tập tin HTML.
Anh giải thích:
"'disallow: /robots.txt' - điều này có làm cho robot quay vòng không? Có khiến trang web của bạn bị gỡ khỏi chỉ mục không? Không."
Mueller cũng nói về kích thước tập tin:
"Kích thước đến từ các bài kiểm tra của các công cụ kiểm tra robots.txt mà đội của tôi và tôi đã làm việc. RFC nói rằng một crawler nên phân tích ít nhất 500 kibibytes (bonus cho người đầu tiên giải thích đó là loại snack nào). Bạn phải dừng ở đâu đó, bạn có thể tạo ra các trang vô hạn (và tôi đã, và nhiều người đã, một số thậm chí có ý định). Trên thực tế, điều xảy ra là hệ thống kiểm tra tập tin robots.txt (bộ phân tích) sẽ cắt ở đâu đó."
Anh cũng nói rằng anh đã thêm một lệnh Disallow trên phần đó với hy vọng nó sẽ được hiểu như một 'lệnh Disallow chung' nhưng tôi không chắc rằng Disallow anh đang nói về là gì. Tập tin robots.txt của anh có chính xác 22.433 lệnh Disallow trong đó.
Và đó chính là tập tin robots.txt kỳ lạ của John Mueller.
Hành Trình Kỳ Lạ Của Tập Tin Robots.txt của John Mueller