„Janus-Pro-7B“, sukurtas „Deepseek“, demonstruoja aiškų požiūrį į tankių raginimų tvarkymą, palyginti su kitais modeliais, tokiais kaip „Dall-E 3“. Šio modelio architektūra ir mokymo metodai labai prisideda prie jo geriausio rezultato aiškinant sudėtingas instrukcijas.
Atskirta architektūra
Viena iš pagrindinių „Janus-Pro“ bruožų yra jo atstatyta architektūra, išskirianti vizualinio supratimo ir teksto į žaidimo generavimo užduotis. Šis dizainas leidžia atlikti specializuotus kodavimo įrenginius, kurie gali būti pritaikyti atitinkamoms užduotims, padidinant tiek tikslumą, tiek darną gaunant išvesties gamybą. Atvirkščiai, tokie modeliai, kaip „Dall-E 3“, abiem užduotims naudoja vieną kodavimo įrenginį, kurie gali sukelti konfliktus ir sumažinti našumą, kai susiduria su sudėtingais raginimais [1] [2].Treniruotės su tankiais raginimais
Janus-Pro mokymo metodika sutelkta į tankius aprašomuosius raginimus, naudojant vieningą autoregresyvų transformatorių, apdorojantį daugialypės funkcijų sekas. Šis požiūris pabrėžia aukštos kokybės sintetinių duomenų naudojimą kartu su realaus pasaulio duomenimis, leidžiančiais modeliui specializuotis vaizdų generavimui iš sudėtingų tekstinių aprašymų, be triukšmo, dažnai rasto įvairiuose duomenų rinkiniuose [2] [4]. Tai prieštarauja „Dall-E 3“, kuris labiau remiasi realaus pasaulio duomenimis, kurie gali sukelti išvesties kokybės neatitikimus [2] [5].našumo metrika
Atliekant tokius etaloninius testus kaip DPG-Bench, kurie įvertina galimybę generuoti vaizdus iš sudėtingų raginimų, „Janus-Pro“ pasiekė bendrą 84,19 balą, šiek tiek pralenkdamas „Dall-E 3“ rezultatą 83,50. Pažymėtina, kad „Janus-Pro“ pasižymėjo tokiomis metrikomis kaip atributų suderinimas (89,4%, palyginti su 88,39%) ir santykių tvarkymu (89,32%, palyginti su 90,58%), tai rodo jo stiprumą tiksliai aiškinant ryšius ir atributus, aprašytus tankiuose raginimuose [1] [3] [3] [3 [3 [3] [3 [3 [3 [3 [3] ].Išvada
„Janus-Pro“ novatoriška atstatyta architektūra ir tikslingi mokymai į tankius raginimus leidžia jam efektyviau atlikti sudėtingas vaizdų generavimo užduotis nei tradiciniai modeliai, tokie kaip „Dall-E 3“. Pasinaudojant sintetiniais duomenimis ir specializuotais kodavimo elementais, „Janus-Pro“ padidina savo sugebėjimą gaminti nuoseklų ir vizualiai vizualiai vizualiai. Apeliacinės išvestys iš sudėtingų instrukcijų, nustatant naują multimodalinių AI galimybių standartą.Citatos:
[1] https://www.prompthub.us/blog/deepseek-janus-pro-7b-model-ovieview-and-how-it-ranks-against-dall-e-3
[2] https://aman.ai/primers/ai/deepseek-janus-pro/
[3] https://arxiv.org/html/2501.17811v1
[4] https://aipapersacademy.com/janus-pro/
[5] https://www.datacamp.com/blog/janus-pro
[6] https://stackoverflow.com/questions/45448368/should-i-use-janusgraph-as-main-database-to-store-all-my-data-for-a-dew-Project
[7] https://wandb.ai/byyoung3/ml-news/reports/deepseek-s-new-multi-modal-image-generation-model-janus-pro---vmlldzoxmteymjg2ma
[8] https://www.linkedin.com/pulse/introduction-deepseek-janus-pro-lionel-j6oac