Janus-Pro-7B, ki ga je razvil Deepseek, prikazuje izrazit pristop k ravnanju z gostmi pozivi v primerjavi z drugimi modeli, kot je DALL-E 3. Metode arhitekture in usposabljanja tega modela bistveno prispevajo k njegovi vrhunski uspešnosti pri razlagi kompleksnih navodil.
Ločevana arhitektura
Ena ključnih značilnosti Janusa-Pro je njegova ločena arhitektura, ki ločuje naloge vizualnega razumevanja in ustvarjanja besedila in podobe. Ta zasnova omogoča specializirane dajalce, ki jih je mogoče natančno prilagoditi za njihove naloge, kar izboljšuje tako natančnost kot skladnost v proizvodnji. V nasprotju s tem modeli, kot je DALL-E 3, za obe nalogi uporabljajo en dajalnik, kar lahko privede do konfliktov in zmanjšane zmogljivosti pri obravnavi zapletenih pozivov [1] [2].Trening z gostimi pozivi
Metodologija usposabljanja Janusa-Pro se osredotoča na goste opisne pozive, pri čemer uporabi poenoten avtoregresivni transformator, ki obdeluje multimodalne sekvence funkcij. Ta pristop poudarja uporabo visokokakovostnih sintetičnih podatkov poleg podatkov v resničnem svetu, kar omogoča, da se model specializira za ustvarjanje slik iz zapletenih besedilnih opisov brez hrupa, ki ga pogosto najdemo v različnih naborih podatkov [2] [4]. To je v nasprotju z DALL-E 3, ki se bolj opira na podatke v resničnem svetu, ki lahko uvajajo neskladnosti kakovosti izhoda [2] [5].Metrike uspešnosti
V primerjalnih testih, kot je DPG-Bench, ki ocenjuje sposobnost ustvarjanja slik iz zapletenih pozivov, je Janus-Pro dosegel skupno oceno 84,19, kar je rahlo presegalo oceno DALL-E 3 83,50. Zlasti se je Janus-Pro odlično odrezal v meritvah, kot je poravnava atributov (89,4% v primerjavi z 88,39%) in ravnanje z odnosom (89,32% v primerjavi z 90,58%) ].Zaključek
Janus-Pro-ova inovativna ločena arhitektura in osredotočeno usposabljanje na gostih pozivih mu omogočajo, da bolj učinkovito obravnava zapletene naloge slike kot tradicionalni modeli, kot je DALL-E 3. Privlačni izhodi iz zapletenih navodil, ki nastavijo nov standard v multimodalnih zmogljivostih AI.Navedbe:
[1] https://www.prompthub.us/blog/deepseek-janus-pro-7b-model-overview-in-it-ranks-against-dall-e-3
[2] https://aman.ai/primers/ai/deepseek-janus-pro/
[3] https://arxiv.org/html/2501.17811V1
[4] https://aipapersacademy.com/janus-pro/
[5] https://www.datacamp.com/blog/janus-pro
[6] https://stackoverflow.com/questions/45448368/should-i-use-janusgraph-as-main-database-to-to-all-my-data-for-a-novina
[7] https://wandb.ai/byyoung3/ml-news/reports/deepseek-s-new-modal-mage-generation-model-janus-pro--vmlldzoxmteymjg2ma
[8] https://www.linkedin.com/pulse/introduction-deepseek-janus-pro-lionel-sim-J6oac