Sự Tích Hợp Cải Tiến Của Mô Hình Huấn Luyện Trí Tuệ Nhân Tạo
DeepMind, một trong những đơn vị nghiên cứu hàng đầu về trí tuệ nhân tạo, vừa công bố một nghiên cứu mới về mô hình huấn luyện trí tuệ nhân tạo mang tên WARM. Nghiên cứu này đề xuất một cách huấn luyện các mô hình ngôn ngữ lớn sao cho chúng cung cấp những câu trả lời đáng tin cậy hơn và có khả năng chống lại việc hack điểm thưởng, một bước tiến trong việc phát triển các hệ thống trí tuệ nhân tạo linh hoạt và hiệu quả hơn.
Công bố này đã thu hút sự chú ý của cộng đồng nghiên cứu và công nghệ, thể hiện sự tích hợp cải tiến đáng kể trong lĩnh vực trí tuệ nhân tạo.
Nguyên Nhân Của Việc Hack Điểm Thưởng Trong Các Mô Hình Ngôn Ngữ Lớn
Để giải quyết vấn đề hack điểm thưởng, các nhà nghiên cứu đã xác định hai lĩnh vực gây ra việc hack điểm thưởng mà phải được giải quyết bởi giải pháp của họ:
1. Sự thay đổi phân phối
2. Sự không nhất quán trong sở thích của con người
Mô Hình Huấn Luyện Trí Tuệ Nhân Tạo WARM
Các nhà nghiên cứu tại Google DeepMind đã phát triển một hệ thống mang tên Weight Averaged Reward Models (WARM), tạo ra một mô hình giả từ sự kết hợp của nhiều mô hình điểm thưởng cá nhân, mỗi mô hình có những khác biệt nhỏ. Với WARM, khi họ tăng số lượng mô hình điểm thưởng họ kết hợp cùng nhau, kết quả trở nên đáng tin cậy hơn đáng kể, với hệ thống tránh được sự suy giảm đột ngột trong độ tin cậy như trong các mô hình tiêu chuẩn.
Mô hình WARM còn có lợi thế về hiệu suất bộ nhớ và không làm chậm khả năng cung cấp câu trả lời của mô hình, ngoài ra còn có khả năng chống lại việc hack điểm thưởng.
WARM cũng làm cho mô hình trở nên đáng tin cậy và nhất quán hơn khi đối mặt với sự thay đổi trong dữ liệu và nhất quán hơn.
Điều gây chú ý của tôi là khả năng tuân theo 'mô hình học máy có thể cập nhật' mà đề cập đến khả năng của WARM có thể thích nghi và cải thiện bằng cách tích hợp dữ liệu mới hoặc thay đổi theo thời gian, mà không cần bắt đầu lại từ đầu.
Theo đánh giá của các nhà nghiên cứu:
'WARM đại diện cho một phương pháp linh hoạt và thực tế để cải thiện sự phù hợp của trí tuệ nhân tạo với các giá trị của con người và các quy chuẩn xã hội.
...WARM tuân theo mô hình học máy có thể cập nhật, loại bỏ nhu cầu cho việc liên lạc giữa các máy chủ, do đó cho phép song song hóa đơn giản của các mô hình điểm thưởng.
Điều này tạo điều kiện cho việc sử dụng trong kịch bản học liên đoàn nơi dữ liệu cần phải được bảo mật; hơn nữa, WA sẽ thêm một lớp bảo mật và giảm thiểu đặc tính nhớ lấy sở thích cá nhân. Sau đó, một mở rộng đơn giản của WARM sẽ kết hợp các mô hình điểm thưởng được huấn luyện trên các tập dữ liệu khác nhau, ví dụ, từ các (nhóm) người đánh giá nhãn.
...Ngoài ra, vì WA đã được chứng minh giới hạn quên mạnh mẽ, WARM có thể hỗ trợ mà không gặp vấn đề với sở thích tiến triển và tiến triển.
Bài nghiên cứu này chỉ ra hướng đi của cách cải thiện trí tuệ nhân tạo, mặc dù không phải là một giải pháp hoàn chỉnh vì nó có những hạn chế bẩm sinh. Một trong những vấn đề là nó không hoàn toàn loại bỏ tất cả các hình thức 'tương quan giả tạo hoặc đặc tính thiên vị có sẵn trong dữ liệu sở thích.'
Tuy nhiên, họ kết luận một cách tích cực về tương lai của WARM:
'Các kết quả thực nghiệm của chúng tôi chứng minh tính hiệu quả khi áp dụng vào việc tóm tắt. Chúng tôi kỳ vọng rằng WARM sẽ đóng góp vào việc xây dựng các hệ thống trí tuệ nhân tạo phù hợp, minh bạch và hiệu quả hơn, khuyến khích sự khám phá thêm về mô hình điểm thưởng.'