Google và Bàn Luận Về Noindex Trong Robots.txt
Google vừa có những cuộc thảo luận nội bộ về việc cho phép chỉ thị noindex trong tập tin robots.txt. John Mueller của Google đã đưa ra phản hồi trên LinkedIn để thảo luận về việc sử dụng chỉ thị noindex không được hỗ trợ trên robots.txt của trang web cá nhân của mình. Ông giải thích ưu điểm và nhược điểm của việc hỗ trợ chỉ thị này từ phía công cụ tìm kiếm và cung cấp cái nhìn sâu hơn vào cuộc thảo luận nội bộ của Google về việc hỗ trợ nó.
Robots.txt Của John Mueller
Robots.txt của Mueller đã trở thành một đề tài được bàn luận suốt tuần qua vì sự lạ lùng của các chỉ thị không chuẩn mà ông sử dụng trong đó. Điều không thể tránh khỏi là robots.txt của Mueller đã được kiểm tra kỹ lưỡng và lan truyền mạnh mẽ trong cộng đồng tiếp thị tìm kiếm.
Chỉ Thị Noindex
Mọi thứ có trong robots.txt được gọi là chỉ thị. Một chỉ thị là yêu cầu đối với trình thu thập web mà nó phải tuân thủ (nếu nó tuân thủ các chỉ thị robots.txt).
Có các tiêu chuẩn để viết một chỉ thị robots.txt và bất cứ điều gì không tuân thủ các tiêu chuẩn đó có khả năng bị bỏ qua. Một chỉ thị không chuẩn trong robots.txt của Mueller đã thu hút sự chú ý của một người quyết định đăng một câu hỏi về nó cho John Mueller qua LinkedIn, để biết liệu Google có hỗ trợ chỉ thị không chuẩn đó hay không.
Đó là một câu hỏi hay vì dễ dàng nghĩ rằng nếu một người làm việc tại Google đang sử dụng nó thì có lẽ Google hỗ trợ nó.
Chỉ thị không chuẩn đó là noindex. Noindex là một phần của tiêu chuẩn meta robots nhưng không phải tiêu chuẩn robots.txt. Mueller không chỉ có một trường hợp của chỉ thị noindex, ông có 5,506 chỉ thị noindex.
Chuyên gia SEO đã đặt câu hỏi, Mahek Giri, viết:
'Trong tập tin robots.txt của John Mueller,
có một lệnh không bình thường:
'noindex:'
Lệnh này không phải là một phần của định dạng robots.txt tiêu chuẩn,
Vậy bạn nghĩ rằng nó sẽ ảnh hưởng đến cách công cụ tìm kiếm lập chỉ mục trang của ông không?
John Mueller tò mò về noindex: trong robots.txt'
Tại Sao Chỉ Thị Noindex Trong Robots.txt Không Được Hỗ Trợ Bởi Google
John Mueller của Google cho biết rằng điều đó không được hỗ trợ.
Mueller trả lời:
'Dây là một chỉ thị không được hỗ trợ, nó không làm gì cả.'
Mueller sau đó tiếp tục giải thích rằng Google đã từng xem xét việc hỗ trợ chỉ thị noindex từ bên trong robots.txt vì nó sẽ cung cấp một cách cho nhà xuất bản chặn Google cả từ việc thu thập và lập chỉ mục nội dung cùng một lúc.
Hiện tại bạn có thể chặn việc thu thập trong robots.txt hoặc chặn việc lập chỉ mục với chỉ thị meta robots noindex. Nhưng bạn không thể chặn việc lập chỉ mục với chỉ thị meta robots và chặn việc thu thập trong robots.txt cùng một lúc vì việc chặn thu thập sẽ ngăn trình thu thập 'nhìn thấy' chỉ thị meta robots.
Mueller giải thích tại sao Google quyết định không tiến xa hơn với ý tưởng về việc tôn trọng chỉ thị noindex trong robots.txt.
Ông viết:
'Đã có nhiều cuộc thảo luận về việc liệu nó có nên được hỗ trợ như một phần của tiêu chuẩn robots.txt. Ý định đằng sau đó là rằng sẽ tốt nếu chặn cả việc thu thập và lập chỉ mục cùng một lúc. Với robots.txt, bạn có thể chặn thu thập, hoặc bạn có thể chặn lập chỉ mục (với một thẻ meta robots, nếu bạn cho phép thu thập). Ý tưởng là bạn có thể có một 'noindex' trong robots.txt cũng, và chặn cả hai.
Thật không may, vì nhiều người sao chép & dán tập tin robots.txt mà không xem xét kỹ (ít người nhìn xa như bạn đã làm!), rất, rất dễ cho một người nào đó loại bỏ phần quan trọng của một trang web một cách tình cờ. Và vì vậy, quyết định rằng điều này không nên là một chỉ thị được hỗ trợ, hoặc một phần của tiêu chuẩn robots.txt... có lẽ đã hơn 10 năm qua ở thời điểm này.'
Vì Sao Lại Có Chỉ Thị Noindex Trong Robots.txt Của Mueller
Mueller đã làm rõ rằng khó có thể Google sẽ hỗ trợ thẻ đó và rằng điều này đã được xác nhận khoảng mười năm trước. Sự phát hiện về những cuộc thảo luận nội bộ đó rất thú vị nhưng cũng làm sâu thêm cảm giác lạ lùng về robots.txt của Mueller.
Xem thêm: 8 Vấn Đề Phổ Biến Về Robots.txt Và Cách Khắc Phục
Ảnh Đại Diện: Shutterstock/Kues