GPT-4.5: Độ chính xác được cải thiện với tỷ lệ ảo giác giảm

Có bất kỳ tên miền nào mà tỷ lệ ảo giác của GPT-4.5 đặc biệt thấp không

GPT-4.5, mô hình mới nhất từ OpenAI, cho thấy sự giảm đáng kể tỷ lệ ảo giác so với người tiền nhiệm của nó. Mặc dù nó thường cho thấy tỷ lệ ảo giác khoảng 37%, nhưng có các lĩnh vực và đánh giá cụ thể trong đó hiệu suất của nó tốt hơn đáng kể.

Kỹ thuật giảm ảo giác

GPT-4.5 sử dụng các kỹ thuật giám sát mới, bao gồm tinh chỉnh được giám sát (SFT) và học tập củng cố từ phản hồi của con người (RLHF), góp phần vào tỷ lệ ảo giác thấp hơn [1] [3]. Các phương pháp này giúp cải thiện độ chính xác và độ tin cậy của mô hình bằng cách đảm bảo rằng nó tạo ra thông tin dựa trên dữ liệu thực tế.

Hiệu suất trong các miền cụ thể

- Đánh giá PersonQA: Trong bộ dữ liệu PersonQA, trong đó kiểm tra khả năng trả lời các câu hỏi của mô hình một cách chính xác, GPT-4,5 cho thấy tỷ lệ ảo giác khoảng 19%. Điều này thấp hơn tỷ lệ tổng thể của nó và chỉ ra rằng trong các lĩnh vực liên quan đến thông tin thực tế về các cá nhân, GPT-4.5 hoạt động tốt với ít ảo giác hơn [3].

-Các nhiệm vụ liên quan đến ngôn ngữ: GPT-4.5 vượt trội trong các nhiệm vụ viết và lập trình, đưa ra các giải thích chi tiết và hỗ trợ trong việc giải quyết vấn đề thực tế. Mặc dù tỷ lệ ảo giác cụ thể cho các nhiệm vụ này không chi tiết, nhưng sự nhận dạng mẫu được cải thiện của mô hình và cơ sở kiến thức rộng hơn góp phần vào các đầu ra chính xác và đáng tin cậy hơn [1] [5].

- So sánh với các mô hình khác: Trong các đánh giá nhất định, chẳng hạn như mô hình lý luận O1, tỷ lệ ảo giác của GPT-4.5 cao hơn (37% so với 44% cho O1). Tuy nhiên, GPT-4.5 được thiết kế cho các ứng dụng có mục đích chung hơn là các nhiệm vụ lý luận chuyên biệt [5].

Nhìn chung, tỷ lệ ảo giác của GPT-4.5 đặc biệt thấp trong các lĩnh vực mà nó đã được đào tạo và đánh giá rộng rãi, chẳng hạn như trong bộ dữ liệu PersonQA. Tuy nhiên, hiệu suất của nó có thể thay đổi theo các nhiệm vụ và đánh giá khác nhau, phản ánh những thách thức đang diễn ra trong việc giảm ảo giác trong các mô hình AI.

Trích dẫn:
[1] https:
.
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-specific-data-from-files-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386