Độ chính xác của GPT-4.5 trên các câu hỏi khắc phục sự cố, đặc biệt là trong các lĩnh vực phức tạp như xử lý sự cố đa phương thức và virus học, không được trình bày chi tiết rõ ràng trong các thông tin có sẵn. Tuy nhiên, GPT-4.5 đã cho thấy sự cải thiện trong một số khu vực nhất định so với người tiền nhiệm của nó. Chẳng hạn, nó hoạt động tốt hơn trong việc nhận ra các mẫu và bản vẽ kết nối, có khả năng tăng cường khả năng khắc phục sự cố của nó [5].
Về các đánh giá cụ thể, GPT-4.5 thường thực hiện ngang hàng với GPT-4O và O1 trong việc từ chối nội dung không an toàn và trong một số đánh giá liên quan đến an toàn [1] [4]. Tuy nhiên, khi nói đến tính chính xác trong việc trả lời các câu hỏi, GPT-4.5 đã cho thấy những cải tiến đáng kể trong một số bộ dữ liệu nhất định. Ví dụ, trong bộ dữ liệu PersonQA, đánh giá ảo giác và độ chính xác, GPT-4,5 đạt được độ chính xác 0,78 và tỷ lệ ảo giác là 0,19, vượt trội so với GPT-4O và O1 [1] [4].
Trong các đánh giá công bằng và thiên vị, GPT-4.5 thực hiện tương tự như GPT-4O nhưng được O1 vượt trội trong việc cung cấp câu trả lời không thiên vị cho các câu hỏi không rõ ràng [1] [4]. Mặc dù GPT-4.5 đã chứng minh những cải tiến trong việc xử lý các thông điệp mâu thuẫn và tuân thủ các hướng dẫn an toàn, độ chính xác tổng thể của nó trong việc khắc phục các câu hỏi cụ thể không được so sánh trực tiếp với GPT-4O và O1 trong dữ liệu có sẵn [1] [4].
Nói chung, khả năng nhận biết các mẫu và rút kết nối của GPT-4.5 có thể tăng cường hiệu suất của nó trong việc khắc phục các tác vụ, nhưng các so sánh cụ thể trong miền này bị hạn chế. Các nhà quan sát trong ngành đã ghi nhận những cải tiến trong một số nhiệm vụ nhất định, chẳng hạn như trích xuất dữ liệu, trong đó GPT-4.5 vượt trội so với GPT-4O bằng cách trích xuất các trường chính xác hơn [7]. Tuy nhiên, so sánh chi tiết đặc biệt cho các câu hỏi khắc phục sự cố không được cung cấp trong các thông tin có sẵn.
Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
[3] https://www.reddit.com/r/openai/comments/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7EaDv6OaWHhXLAehUYu7Db/64e9f7916d3581ba4b5d0f0a6c5098d1/GPT-4-5_System_Card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
.
[7] https://vives
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991