ChatGPT 4o (Omni): Sự Kết Hợp Đa Phương Tiện Mới

OpenAI**** đã mô tả phiên bản mới của ChatGPT như một bước tiến tiếp theo trong việc tạo ra sự tương tác tự nhiên hơn giữa con người và máy móc, đáp ứng tốc độ phản hồi từ người dùng giống như trong các cuộc trò chuyện giữa con người với nhau. Phiên bản mới này sánh ngang với ChatGPT 4 Turbo trong tiếng Anh và vượt trội đáng kể so với Turbo trong các ngôn ngữ khác. Có một cải tiến đáng kể trong hiệu suất API, tăng tốc độ và hoạt động với chi phí giảm đi 50%.

Thông báo giải thích:

"Đo lường trên các chỉ số truyền thống, GPT-4o đạt được hiệu suất cấp độ GPT-4 Turbo trong văn bản, lý luận và thông minh lập trình, đồng thời đặt ra các chỉ số cao mới về khả năng đa ngôn ngữ, âm thanh và thị giác."

Xử Lý Âm Thanh Tiên Tiến

Phương pháp trước đây để giao tiếp bằng giọng nói liên quan đến việc kết hợp ba mô hình khác nhau để xử lý việc chuyển đổi đầu vào giọng nói thành văn bản, nơi mô hình thứ hai (GPT 3.5 hoặc GPT-4) xử lý nó và đầu ra là văn bản và một mô hình thứ ba chuyển đổi văn bản trở lại âm thanh. Phương pháp đó được cho là mất đi những sắc thái trong các bản dịch khác nhau.

OpenAI**** mô tả những hạn chế của phương pháp trước đó mà (giả định) đã được vượt qua bởi phương pháp mới:

"Quy trình này có nghĩa là nguồn thông minh chính, GPT-4, mất rất nhiều thông tin—nó không thể quan sát trực tiếp âm điệu, nhiều người nói, hoặc tiếng ồn nền, và nó không thể đầu ra tiếng cười, hát, hoặc thể hiện cảm xúc."

Phiên bản mới không cần ba mô hình khác nhau vì tất cả các đầu vào và đầu ra được xử lý chung trong một mô hình cho đầu vào và đầu ra âm thanh cuối cùng. Thú vị là, OpenAI**** tuyên bố rằng họ chưa khám phá hết khả năng của mô hình mới hoặc hiểu rõ hạn chế của nó.

Rào Cản Mới Và Phát Hành Theo Chiều Lặp

OpenAI**** GPT 4o có các rào cản và bộ lọc mới để giữ cho nó an toàn và tránh đầu ra giọng nói không mong muốn vì lý do an toàn. Tuy nhiên, thông báo hôm nay nói rằng họ chỉ đang triển khai các khả năng cho đầu vào văn bản và hình ảnh và đầu ra văn bản và một phần âm thanh giới hạn khi ra mắt. GPT 4o có sẵn cho cả các gói miễn phí và trả phí, với người dùng Plus nhận được giới hạn tin nhắn cao gấp 5 lần.

Khả năng âm thanh sẽ được phát hành trong giai đoạn alpha giới hạn cho người dùng ChatGPT Plus và API trong vài tuần tới.

Thông báo giải thích:

"Chúng tôi nhận ra rằng các dạng âm thanh của GPT-4o mang lại nhiều rủi ro mới. Hôm nay, chúng tôi công khai phát hành đầu vào văn bản và hình ảnh và đầu ra văn bản. Trong những tuần và tháng sắp tới, chúng tôi sẽ làm việc trên cơ sở hạ tầng kỹ thuật, tính khả dụng qua sau khi đào tạo và an toàn cần thiết để phát hành các dạng khác. Ví dụ, khi ra mắt, đầu ra âm thanh sẽ bị giới hạn trong một lựa chọn giọng và sẽ tuân thủ theo chính sách an toàn hiện tại."

Đọc thông báo:

Xin chào GPT-4o

Ảnh đặc sắc bởi Shutterstock/Photo For Everything