Cả GPT-4.5 và GPT-4 đều phải đối mặt với những thách thức khi xử lý các ngôn ngữ tài nguyên thấp, nhưng có một số khác biệt trong cách tiếp cận và hiệu suất của họ.
Hiệu suất GPT-4 trên các ngôn ngữ tài nguyên thấp
GPT-4, giống như các mô hình ngôn ngữ lớn khác, đã cho thấy các khả năng ấn tượng trong các ngôn ngữ tài nguyên cao nhưng đấu tranh với các ngôn ngữ tài nguyên thấp. Các nghiên cứu đã chỉ ra rằng hiệu suất của GPT-4 trong các ngôn ngữ này không mạnh mẽ như trong tiếng Anh hoặc các ngôn ngữ được đại diện tốt khác [1] [3]. Điều này một phần là do dữ liệu đào tạo hạn chế có sẵn cho các ngôn ngữ này, dẫn đến mã hóa kém hiệu quả và hiểu biết về các sắc thái ngôn ngữ [1]. Ngoài ra, các bộ lọc an toàn của GPT-4 đã được tìm thấy là kém hiệu quả khi xử lý các đầu vào được dịch sang các ngôn ngữ tài nguyên thấp, giúp vượt qua các biện pháp bảo vệ dễ dàng hơn [5].
GPT-4.5 Cải tiến cho các ngôn ngữ tài nguyên thấp
GPT-4.5 nhằm mục đích cải thiện khả năng của GPT-4, bao gồm cả việc xử lý các ngôn ngữ tài nguyên thấp. Mặc dù các cải tiến cụ thể đối với các ngôn ngữ tài nguyên thấp không được chi tiết rộng rãi, GPT-4.5 được ghi nhận để vượt trội hơn GPT-4 trong các đánh giá đa ngôn ngữ. Ví dụ, trong các đánh giá sử dụng tập kiểm tra MMLU được dịch thành 14 ngôn ngữ, bao gồm các ngôn ngữ tài nguyên thấp như Yoruba, GPT-4.5 cho thấy hiệu suất tốt hơn so với GPT-4 [9]. Điều này cho thấy rằng GPT-4.5 có thể đã tăng cường hỗ trợ đa ngôn ngữ và có khả năng xử lý tốt hơn các sắc thái ngôn ngữ trong các ngôn ngữ tài nguyên thấp.
Tuy nhiên, những cải tiến trong GPT-4.5 là nhiều hơn về hiệu suất đa ngôn ngữ tổng thể hơn là các cải tiến cụ thể cho các ngôn ngữ tài nguyên thấp. Việc sử dụng các dịch giả của con người để đánh giá các khả năng đa ngôn ngữ cho thấy tập trung vào việc đảm bảo các bản dịch chính xác, có thể gián tiếp có lợi cho các ngôn ngữ tài nguyên thấp bằng cách cung cấp dữ liệu đáng tin cậy hơn cho các cải tiến trong tương lai [9].
Những thách thức và hướng dẫn trong tương lai
Mặc dù có những cải tiến này, cả GPT-4 và GPT-4.5 vẫn phải đối mặt với những thách thức đáng kể với các ngôn ngữ tài nguyên thấp. Các kỹ thuật điều chỉnh và các kỹ thuật nhắc nhở chuyên dụng thường được khuyến nghị để tăng cường hiệu suất trong các ngôn ngữ này [7]. Sự khác biệt về an toàn và hiệu suất giữa các ngôn ngữ có nguồn lực cao và tài nguyên thấp nhấn mạnh sự cần thiết phải có dữ liệu đào tạo bao gồm và các giao thức an toàn bao gồm sự đa dạng ngôn ngữ [5].
Tóm lại, trong khi GPT-4.5 cung cấp một số cải tiến về GPT-4 trong bối cảnh đa ngôn ngữ, các cải tiến cụ thể cho các ngôn ngữ tài nguyên thấp không được chi tiết rộng rãi. Nghiên cứu và phát triển sâu hơn là cần thiết để giải quyết các thách thức dai dẳng trong các ngôn ngữ này.
Trích dẫn:
[1] https://aclanthology.org/2024
[2] https:
[3] https://www.asianlp.sg/conferences/ialp2024/proceedings/papers/IALP2024_P027.pdf
[4] https://www.techtarget.com/searchenterpriseai/tip/GPT-35-vs-GPT-4-Biggest-differences-to-consider
[5] https://arxiv.org/pdf/2310.02446.pdf
.
[7] https://aclanthology.org/2025.coling-main.559.pdf
.
[9] https://cdn.openai.com/gpt-4-5-system-card.pdf