Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Những kỹ thuật căn chỉnh mới đã được phát triển cho GPT-4.5


Những kỹ thuật căn chỉnh mới đã được phát triển cho GPT-4.5


Đối với GPT-4.5, OpenAI đã phát triển các kỹ thuật căn chỉnh mới, có thể mở rộng cho phép đào tạo các mô hình lớn hơn và mạnh hơn sử dụng dữ liệu có nguồn gốc từ các mô hình nhỏ hơn. Những kỹ thuật này được thiết kế để cải thiện khả năng hiểu được nhu cầu và ý định của con người, tăng cường khả năng lái xe, sắc thái và khả năng hội thoại tự nhiên của nó.

Kỹ thuật căn chỉnh chính

1. Căn chỉnh có thể mở rộng: Cách tiếp cận này liên quan đến việc sử dụng các mô hình nhỏ hơn để tạo dữ liệu đào tạo chất lượng cao cho các mô hình lớn hơn. Phương pháp này tăng tốc quá trình đào tạo và cải thiện khả năng của mô hình để làm theo các hướng dẫn sắc thái. Tuy nhiên, nó cũng đưa ra nguy cơ khuếch đại các sai lệch hoặc lỗi có trong các mô hình nhỏ hơn [4] [5].

2. Kết hợp các phương pháp truyền thống: GPT-4.5 được đào tạo bằng cách sử dụng kết hợp các kỹ thuật giám sát mới cùng với các phương pháp truyền thống như tinh chỉnh được giám sát (SFT) và học tập củng cố từ phản hồi của con người (RLHF). SFT liên quan đến việc học hỏi từ các ví dụ có nhãn của con người, có hiệu quả nhưng có thể chậm và tốn kém. RLHF xếp hạng đầu ra dựa trên sở thích của con người, đôi khi có thể dẫn đến quá mức, khiến AI quá thận trọng hoặc ít sáng tạo hơn [4] [5] [7].

3. Hiểu biết về nhu cầu của con người: Các kỹ thuật liên kết mới tập trung vào việc dạy mô hình một sự hiểu biết lớn hơn về nhu cầu và ý định của con người. Điều này rất quan trọng vì các mô hình giải quyết các vấn đề phức tạp hơn và tương tác với người dùng theo những cách nhiều sắc thái hơn [1] [3] [5].

Tác động của các kỹ thuật mới

Các kỹ thuật căn chỉnh mới trong GPT-4.5 đã dẫn đến một số cải tiến:

- Tương tác tự nhiên: Người thử nghiệm nội bộ báo cáo rằng GPT-4.5 cảm thấy tự nhiên và trực quan hơn, đặc biệt là trong việc xử lý các truy vấn mang tính cảm xúc. Nó có thể cung cấp lời khuyên, sự thất vọng khuếch tán hoặc đơn giản là nghe người dùng khi cần [1] [3].
- Trực giác thẩm mỹ và sáng tạo: Mô hình cho thấy trực giác và sáng tạo thẩm mỹ mạnh mẽ hơn, làm cho nó đặc biệt hữu ích cho các nhiệm vụ như viết và thiết kế sáng tạo [1] [3].
- Giảm ảo giác: GPT-4.5 thể hiện ít ảo giác hơn do những tiến bộ trong học tập không giám sát, giúp cải thiện độ chính xác của mô hình thế giới và tư duy liên kết [5] [6].

Nhìn chung, các kỹ thuật này nhằm mục đích làm cho GPT-4.5 phản ứng nhanh hơn, hiệu quả và phù hợp với ý định của người dùng, đồng thời giải quyết một số thách thức liên quan đến việc mở rộng các mô hình ngôn ngữ lớn.

Trích dẫn:
[1)
[2] https://arxiv.org/html/2502.11681v2
[3] https://www.lesswrong.com/posts/fqAJGqcPmgEHKoEE6/openai-releases-gpt-4-5
[4] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://pmc.ncbi.nlm.nih.gov/articles/pmc11184879/