Để đánh giá các khả năng đa ngôn ngữ của GPT-4.5, OpenAI đã sử dụng một số phương pháp:
1. Bản dịch các bộ kiểm tra: Openai đã dịch bộ kiểm tra của tiêu chuẩn hiểu ngôn ngữ lớn (MMLU) thành 14 ngôn ngữ bằng cách sử dụng các dịch giả chuyên nghiệp của con người. Cách tiếp cận này cho phép đánh giá toàn diện về hiệu suất của GPT-4.5 trên nhiều ngôn ngữ, bao gồm tiếng Ả Rập, tiếng Bengal, tiếng Trung (đơn giản hóa), tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Hindi, tiếng Indonesia, tiếng Ý, tiếng Nhật, tiếng Hàn, tiếng Bồ Đào Nha (Brazil), tiếng Tây Ban Nha, Swahili và Yoruba [1].
2. Đánh giá không có ảnh: Mô hình đã được kiểm tra trong cài đặt không bắn, có nghĩa là nó không được cung cấp dữ liệu đào tạo bổ sung hoặc điều chỉnh tinh chỉnh cho các ngôn ngữ cụ thể. Phương pháp này đánh giá khả năng của mô hình để khái quát hóa trên các ngôn ngữ mà không cần đào tạo rõ ràng [1].
3. So sánh với các mô hình trước đây: Hiệu suất của GPT-4.5 được so sánh với các tiền thân của nó, chẳng hạn như GPT-4O và O1, để đánh giá các cải tiến về khả năng đa ngôn ngữ. So sánh này giúp xác định các khu vực nơi GPT-4.5 đã nâng cao và nơi nó vẫn có thể yêu cầu cải thiện [1].
4. Đánh giá an toàn: Mặc dù không chỉ tập trung vào các khả năng đa ngôn ngữ, các đánh giá an toàn cũng xem xét mô hình xử lý các đầu vào ngôn ngữ đa dạng, đảm bảo nó không tạo ra nội dung có hại hoặc không phù hợp trên các ngôn ngữ [1].
5. Đánh giá bên ngoài: OpenAI có khả năng tận dụng các khung và công cụ bên ngoài, tương tự như nền tảng C-Lara được sử dụng để đánh giá xử lý đa ngôn ngữ của GPT-4, để đánh giá thêm khả năng ngôn ngữ của GPT-4.5 [4]. Tuy nhiên, chi tiết cụ thể về việc sử dụng các nền tảng đó cho GPT-4.5 không được cung cấp trong các thông tin có sẵn.
Các phương pháp này cùng nhau cung cấp một đánh giá mạnh mẽ về hiệu suất đa ngôn ngữ của GPT-4.5, nêu bật những điểm mạnh và lĩnh vực của nó để cải thiện trong tương lai.
Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_Using_C-LARA_to_evaluate_GPT-4's_multilingual_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://vives
.