Sự Kết Nối Với Gemma
RecurrentGemma là một mô hình ngôn ngữ mở mà sử dụng kiến trúc Griffin độc đáo của Google. Griffin kết hợp các chuỗi tuyến tính với sự chú ý cục bộ để đạt hiệu suất xuất sắc trong ngôn ngữ. Với kích thước trạng thái cố định, Griffin giảm việc sử dụng bộ nhớ và cho phép suy luận hiệu quả trên các chuỗi dài. Google DeepMind cung cấp một mô hình được huấn luyện trước với 2 tỉ tham số không nhúng và một biến thể được điều chỉnh theo hướng dẫn. Cả hai mô hình đều đạt được hiệu suất tương đương với Gemma-2B mặc dù được huấn luyện trên ít token hơn.
Kiến Trúc Griffin
Mô hình mới dựa trên một mô hình lai gọi là Griffin được công bố cách đây vài tháng. Griffin được gọi là một mô hình 'lai' vì nó sử dụng hai loại công nghệ, một loại cho phép xử lý hiệu quả các chuỗi dài thông tin trong khi loại khác cho phép tập trung vào phần gần đây nhất của đầu vào, giúp nó có khả năng xử lý 'đáng kể' nhiều dữ liệu hơn trong cùng một khoảng thời gian so với các mô hình dựa trên Transformer và giảm thời gian chờ đợi.
Đột Phá
Bài báo nghiên cứu cho biết rằng RecurrentGemma cung cấp hiệu suất tương tự hoặc tốt hơn so với mô hình Transformer truyền thống Gemma-2b (được huấn luyện trên 3 nghìn tỷ token so với 2 nghìn tỷ cho RecurrentGemma). Điều này là một phần lý do bài báo nghiên cứu có tiêu đề 'Vượt Qua Các Mô Hình Transformer' vì nó cho thấy một cách để đạt hiệu suất cao hơn mà không cần tài nguyên cao của kiến trúc Transformer.
Một chiến thắng khác trước các mô hình Transformer là trong việc giảm việc sử dụng bộ nhớ và tăng tốc độ xử lý. Bài báo nghiên cứu giải thích:
'Ưu điểm chính của RecurrentGemma là nó có kích thước trạng thái nhỏ hơn đáng kể so với các Transformer trên các chuỗi dài. Trong khi bộ nhớ cache của Gemma tăng theo chiều dài chuỗi, trạng thái của RecurrentGemma được giới hạn và không tăng trên các chuỗi dài hơn kích thước cửa sổ chú ý cục bộ 2k token. Do đó, trong khi mẫu dài nhất mà Gemma có thể tạo ra theo cách tự sinh là bị giới hạn bởi bộ nhớ có sẵn trên máy chủ, RecurrentGemma có thể tạo ra các chuỗi có độ dài tùy ý.'
RecurrentGemma cũng vượt qua mô hình Transformer Gemma trong khả năng xử lý (số lượng dữ liệu có thể xử lý, càng cao càng tốt). Khả năng xử lý của các mô hình Transformer giảm với độ dài chuỗi cao (tăng số token hoặc từ) nhưng điều này không xảy ra với RecurrentGemma có thể duy trì một khả năng xử lý cao.
Bài báo nghiên cứu cho thấy:
'Trong Hình 1a, chúng tôi vẽ biểu đồ về khả năng xử lý đạt được khi lấy mẫu từ một lời nhắc 2k token cho một loạt độ dài sinh. Khả năng xử lý tính số lượng tối đa các token chúng ta có thể lấy mẫu mỗi giây trên một thiết bị TPUv5e duy nhất.
… RecurrentGemma đạt được khả năng xử lý cao hơn ở tất cả các độ dài chuỗi được xem xét. Khả năng xử lý đạt được bởi RecurrentGemma không giảm khi độ dài chuỗi tăng, trong khi khả năng xử lý của Gemma giảm khi bộ nhớ cache tăng.'
Hạn Chế Của RecurrentGemma
Bài báo nghiên cứu cho thấy phương pháp này đi kèm với một hạn chế riêng khi hiệu suất kém hơn so với các mô hình transformer truyền thống.
Các nhà nghiên cứu nhấn mạnh một hạn chế trong việc xử lý các chuỗi rất dài mà các mô hình transformer có khả năng xử lý.
Theo bài báo:
'Mặc dù các mô hình RecurrentGemma rất hiệu quả đối với các chuỗi ngắn, hiệu suất của chúng có thể kém hơn so với các mô hình transformer truyền thống như Gemma-2B khi xử lý các chuỗi cực kỳ dài vượt quá cửa sổ chú ý cục bộ.'
Ý Nghĩa Trong Thế Giới Thực
Sự quan trọng của phương pháp này đối với các mô hình ngôn ngữ là nó gợi ý rằng có cách khác để cải thiện hiệu suất của các mô hình ngôn ngữ trong khi sử dụng ít tài nguyên tính toán trên một kiến trúc không phải là một mô hình transformer. Điều này cũng cho thấy rằng một mô hình không phải là transformer có thể vượt qua một trong những hạn chế của kích thước cache của mô hình transformer có xu hướng tăng sử dụng bộ nhớ.
Điều này có thể dẫn đến ứng dụng của các mô hình ngôn ngữ trong tương lai gần có thể hoạt động trong các môi trường có tài nguyên hạn chế.