Danh Sách IP Mới
Google vừa cập nhật tài liệu về Googlebot và crawler để thêm một loạt IP cho các bot được kích hoạt bởi người dùng sản phẩm của Google. Tên của các feeds đã được chuyển đổi, điều quan trọng cho các nhà xuất bản đang whitelist địa chỉ IP do Google kiểm soát. Thay đổi này sẽ hữu ích cho những nhà xuất bản muốn chặn các scraper đang sử dụng Google Cloud và các crawler không trực tiếp liên quan đến Google.
Danh Sách IP Mới
Google cho biết danh sách này chứa các dải IP đã được sử dụng từ lâu, vì vậy chúng không phải là các dải địa chỉ IP mới.
Có hai loại dải địa chỉ IP:
-
Dải IP được khởi tạo bởi người dùng nhưng được kiểm soát bởi Google và giải quyết thành một tên máy chủ Google.com.
-
Dải IP được khởi tạo bởi người dùng nhưng không được kiểm soát bởi Google và giải quyết thành một tên máy chủ gae.googleusercontent.com.
Các danh sách tương ứng với mỗi loại hiện đã khác nhau.
Trước đây, danh sách tương ứng với địa chỉ IP của Google là: special-crawlers.json (giải quyết thành gae.googleusercontent.com)
Bây giờ, danh sách 'special crawlers' tương ứng với các crawler không được kiểm soát bởi Google.
'IPs trong đối tượng user-triggered-fetchers.json giải quyết thành tên máy chủ gae.googleusercontent.com. Các IP này được sử dụng, ví dụ, nếu một trang web chạy trên Google Cloud (GCP) có một tính năng yêu cầu lấy các feed RSS bên ngoài theo yêu cầu của người dùng của trang đó.'
Danh sách mới tương ứng với các crawler do Google kiểm soát là: user-triggered-fetchers-google.json
'Công cụ và chức năng sản phẩm mà người dùng cuối kích hoạt một lấy thông tin. Ví dụ, Google Site Verifier hoạt động theo yêu cầu của người dùng. Bởi vì yêu cầu được người dùng yêu cầu, những người lấy thông tin này bỏ qua các quy tắc robots.txt.
Người lấy thông tin do Google kiểm soát xuất phát từ các IP trong đối tượng user-triggered-fetchers-google.json và giải quyết thành một tên máy chủ google.com.'
Danh sách các IP từ Google Cloud và các crawler ứng dụng mà Google không kiểm soát có thể được tìm thấy tại đây:
developer.google.com/static/search/apis/ipranges/user-triggered-fetchers.json
Danh sách IP từ Google mà được kích hoạt bởi người dùng và được kiểm soát bởi Google có thể được tìm thấy tại đây:
developer.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json
Phần Nội Dung Mới
Có một phần nội dung mới giải thích về danh sách mới này.
'Người lấy thông tin do Google kiểm soát xuất phát từ các IP trong đối tượng user-triggered-fetchers-google.json và giải quyết thành một tên máy chủ google.com. IPs trong đối tượng user-triggered-fetchers.json giải quyết thành tên máy chủ gae.googleusercontent.com. Các IP này được sử dụng, ví dụ, nếu một trang web chạy trên Google Cloud (GCP) có một tính năng yêu cầu lấy các feed RSS bên ngoài theo yêu cầu của người dùng của trang đó.'
Bản Sửa Đổi Của Google
Bản sửa đổi của Google giải thích các thay đổi như sau:
'Xuất thêm một dải địa chỉ IP cho người lấy thông tin Google
Nội dung: Thêm một danh sách IP bổ sung cho những người lấy thông tin được kiểm soát bởi các sản phẩm của Google, so với, ví dụ, một Apps Script được kiểm soát bởi người dùng. Danh sách mới, user-triggered-fetchers-google.json, chứa các dải IP đã được sử dụng từ lâu.
Lý do: Trở thành khả thi kỹ thuật để xuất các dải địa chỉ này.'
Đọc tài liệu cập nhật:
Xác minh Googlebot và các crawler Google khác
Đọc tài liệu cũ:
Archive.org – Xác minh Googlebot và các crawler Google khác
Hình ảnh nổi bật bởi Shutterstock/JHVEPhoto