GPT-4.5 -harjoittelutiedot ja valvontatekniikat

Mitä erityisiä tietojoukkoja käytettiin GPT-4.5: n kouluttamiseen

GPT-4.5 koulutettiin monimuotoisella tietojoukolla, mukaan lukien sekoitus julkisesti saatavilla olevia tietoja, omistustiedot datakumppanuuksista ja sisäisesti kehitettyjä mukautettuja tietojoukkoja. Nämä tietojoukot osallistuvat yhdessä mallin vankkoihin keskusteluominaisuuksiin ja maailmantietoihin. Erityisiä yksityiskohtia käytetyistä tarkista tietoaineistoista ei kuitenkaan nimenomaisesti mainita käytettävissä olevissa tiedoissa.

Koulutusprosessi sisälsi uusia valvontatekniikoita yhdistettynä perinteisiin menetelmiin, kuten valvottuun hienosäätöön (SFT) ja vahvistusoppimiseen ihmisen palautteesta (RLHF), samanlaisia kuin GPT-4O: n [1] [3] käytettyjä [3]. Mallin kehitys sisälsi myös skaalautuvia kohdistustekniikoita, joissa pienemmät mallit tuottavat korkealaatuisia malleja korkealaatuista harjoitustietoja, mikä parantaa mallin ohjausta ja ymmärrystä vivahteesta [7].

Openain tietojenkäsittelyputkisto sisältää tiukan suodatuksen tiedon laadun ylläpitämiseksi ja mahdollisten riskien lieventämiseksi. He käyttävät edistyneitä tiedonsuodatusprosesseja henkilökohtaisten tietojen käsittelyn vähentämiseksi mallejaan kouluttamisessa. Lisäksi he käyttävät maltillisuussovellusliittymänsä ja turvallisuusluokittelijoiden yhdistelmää haitallisen tai herkän sisällön käytön estämiseksi [1].

Vaikka tarkat tietojoukot eivät ole yksityiskohtaisia, lähestymistapa korostaa laajaa ja monipuolista tietosäätiötä GPT-4.5: n ominaisuuksien tukemiseksi tehtävissä, kuten kirjoittamisessa, ohjelmoinissa ja käytännön ongelmien ratkaisemisessa vähemmän hallusinaatioilla [1] [3].

Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.chatbase.co/blog/gpt-5
[5] https://www.wired.com/story/openai-gpt-45/
[6] https://www.datacamp.com/blog/everything-we-know-about-gpt-5
.
[8] https://arxiv.org/html/2404.07840v1