GPT-4.5 mokymo duomenys ir priežiūros metodai

Kokie konkretūs duomenų rinkiniai buvo naudojami treniruoti GPT-4.5

GPT-4.5 buvo mokomas įvairių duomenų rinkinių, įskaitant viešai prieinamų duomenų derinį, patentuotus duomenų partnerystės duomenis ir pasirinktinius duomenų rinkinius, sukurtus namuose. Šie duomenų rinkiniai kartu prisideda prie tvirtų modelio pokalbio galimybių ir pasaulio žinių. Tačiau konkreti informacija apie tikslius naudojamus duomenų rinkinius nėra aiškiai paminėta turima informacija.

Treniruotės procesas apėmė naujus priežiūros metodus, kartu su tradiciniais metodais, tokiais kaip prižiūrimas tikslinimas (SFT) ir sustiprinimo mokymasis iš žmonių atsiliepimų (RLHF), panašiai kaip naudojamas GPT-4O [1] [3]. Modelio raida taip pat apėmė keičiamo lygio derinimo metodus, kai mažesni modeliai generuoja aukštos kokybės mokymo duomenis didesniems modeliams, padidindami modelio valdymą ir supratimą apie niuansą [7].

„Openai“ duomenų apdorojimo dujotiekis apima griežtą filtravimą, siekiant išlaikyti duomenų kokybę ir sumažinti galimą riziką. Jie naudoja pažangias duomenų filtravimo procesus, kad sumažintų asmeninės informacijos tvarkymą mokant savo modelius. Be to, jie naudoja savo moderavimo API ir saugos klasifikatorių derinį, kad būtų išvengta kenksmingo ar jautraus turinio naudojimo [1].

Nors tikslūs duomenų rinkiniai nėra išsamūs, šis požiūris pabrėžia plačią ir įvairiapusę duomenų pagrindą, skirtą palaikyti GPT-4.5 galimybes atliekant užduotis, tokias kaip rašymas, programavimas ir praktinių problemų sprendimas su mažiau haliucinacijų [1] [3].

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://towardsdataSsicence.com/whatgpt-4-brings-to-the-ai-table-74e392a32ac3/
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.chatbase.co/blog/gpt-5
[5] https://www.wired.com/story/openai-gpt-45/
[6] https://www.datacamp.com/blog/everything-we-know-about-gpt-5
[7] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[8] https://arxiv.org/html/2404.07840v1