Sự Hợp Tác Mở Rộng Giữa Google Và Reddit
Google vừa đạt được thỏa thuận để cấp quyền truy cập thời gian thực vào các cuộc trò chuyện trên Reddit để hiển thị nhiều nội dung hơn trên Google và để huấn luyện các mô hình.
Thỏa thuận giữa Google và Reddit rõ ràng cho biết điều này sẽ dẫn đến việc tăng cường khả năng nhận diện các cuộc thảo luận trên Reddit trong các sản phẩm Google khác nhau, bao gồm các bề mặt tìm kiếm trên nhiều chủ đề và ngữ cảnh.
Việc Google có quyền truy cập vào một loạt nội dung Reddit trong một định dạng có cấu trúc sẽ nâng cao khả năng của các mô hình ngôn ngữ để hiểu các cuộc trò chuyện và phong cách viết của con người. Trí tuệ nhân tạo đang ngày càng được sử dụng trong tìm kiếm, vì vậy điều này có thể ảnh hưởng đến cách mà nội dung được hiểu và xếp hạng trong tìm kiếm Google.
Reddit, Google Search Và Trí Tuệ Nhân Tạo
Reddit đã trở thành điểm đến phổ biến cho mọi người thảo luận về bất kỳ chủ đề nào, khiến nó trở thành một điểm đến phổ biến cho những người tìm kiếm thông tin mà họ thêm từ khóa 'Reddit' vào các tìm kiếm để hiển thị nội dung trực tiếp từ Reddit và tránh kết quả tìm kiếm của Google.
Các cuộc trò chuyện trên Reddit cũng hữu ích để huấn luyện các mô hình ngôn ngữ lớn vì sự đa dạng về chủ đề nội dung, là một nguồn dữ liệu trò chuyện sâu viết theo nhiều hình thức.
Nội Dung Reddit Có Cấu Trúc
Nội dung trên web được cho là dữ liệu không có cấu trúc. Máy móc cần xử lý dữ liệu không có cấu trúc để loại bỏ các phần không liên quan như điều hướng và trích xuất nội dung chính. Nó cũng phải hiểu rõ nội dung được upvote và downvote.
Dữ liệu có cấu trúc tuy nhiên là dữ liệu đã được phân loại vào các phần thành phần của nó để không có sự mơ hồ về dữ liệu.
Google hiện đã truy cập vào tất cả dữ liệu đó theo thời gian thực và trong một định dạng có cấu trúc sẽ giúp Google hiểu thông tin và sử dụng nó hiệu quả hơn, với những tín hiệu được mô tả bởi Google là 'tín hiệu tăng cường' sẽ giúp Google hiển thị nó một cách hữu ích hơn.