Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hiệu suất của GPT-4.5 so với GPT-4O về ảo giác


Hiệu suất của GPT-4.5 so với GPT-4O về ảo giác


GPT-4.5 và GPT-4O đều là các mô hình ngôn ngữ tiên tiến được phát triển bởi OpenAI, mỗi mô hình có những cải tiến riêng biệt so với người tiền nhiệm của họ. Khi so sánh hiệu suất của chúng về ảo giác, GPT-4.5 cho thấy sự giảm đáng kể tỷ lệ ảo giác so với GPT-4O.

Giảm ảo giác trong GPT-4.5

-Tỷ lệ ảo giác: GPT-4.5 có tỷ lệ ảo giác khoảng 19% khi được kiểm tra trên bộ dữ liệu PersonQA, đây là một sự cải thiện đáng kể so với tỷ lệ GPT-4O là khoảng 52% [2] [5]. Việc giảm này chỉ ra rằng GPT-4.5 đáng tin cậy hơn và ít có xu hướng tạo thông tin không dựa trên dữ liệu thực tế.
-Kỹ thuật cải tiến: Việc giảm ảo giác trong GPT-4.5 được quy cho các kỹ thuật giám sát mới kết hợp với các phương pháp truyền thống như tinh chỉnh được giám sát (SFT) và học củng cố từ phản hồi của con người (RLHF) [1]. Các phương pháp này giúp tăng cường độ chính xác và độ tin cậy thực tế của mô hình.

So sánh hiệu suất

-Độ chính xác: Về độ chính xác trên bộ dữ liệu PersonQA, GPT-4,5 đạt được độ chính xác cao hơn 78%, so với 28%của GPT-4O [2] [5]. Điều này cho thấy rằng không chỉ GPT-4.5 ảo giác ít hơn mà còn cung cấp các phản hồi chính xác hơn.
- Độ tin cậy tổng thể: Tỷ lệ ảo giác thấp hơn và độ chính xác cao hơn của GPT-4.5 làm cho nó trở thành một lựa chọn đáng tin cậy hơn cho các ứng dụng yêu cầu thông tin chính xác và đáng tin cậy. Tuy nhiên, cả hai mô hình thực hiện tương tự trong các đánh giá nhất định, chẳng hạn như đánh giá tính công bằng và thiên vị [5].

Tóm lại, GPT-4.5 vượt trội so với GPT-4O về việc giảm ảo giác và độ chính xác, làm cho nó trở thành một lựa chọn đáng tin cậy hơn cho các nhiệm vụ đòi hỏi thông tin chính xác và thực tế. Tuy nhiên, cả hai mô hình đều có điểm mạnh và điểm yếu của chúng trên các lĩnh vực và đánh giá khác nhau.

Trích dẫn:
[1] https:
[2] https://assets.ctfassets.net/kftzwdyauwt9/7EaDv6OaWHhXLAehUYu7Db/64e9f7916d3581ba4b5d0f0a6c5098d1/GPT-4-5_System_Card_2272025.pdf
.
[4] https://www.techtarget.com/searchenterpriseai/feature/GPT-4o-vs-GPT-4-How-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/GPT-35-vs-GPT-4-Biggest-differences-to-consider