Janus-Pro-7B, dezvoltat de Deepseek, demonstrează o abordare distinctă pentru gestionarea prompturilor dense în comparație cu alte modele precum Dall-E 3. Metodele de arhitectură și de formare ale acestui model contribuie semnificativ la performanțele sale superioare în interpretarea instrucțiunilor complexe.
Arhitectură decuplată
Una dintre caracteristicile cheie ale Janus-Pro este arhitectura sa decuplată, care separă sarcinile de înțelegere vizuală și generarea de text la imagine. Acest design permite codificatoare specializate care pot fi reglate bine pentru sarcinile respective, îmbunătățind atât precizia, cât și coerența generarii de ieșire. În schimb, modele precum Dall-E 3 folosesc un singur codificator pentru ambele sarcini, ceea ce poate duce la conflicte și performanță redusă atunci când se ocupă de prompturi complexe [1] [2].antrenament cu prompturi dense
Metodologia de instruire a lui Janus-Pro se concentrează pe prompturi descriptive dense, folosind un transformator autoregresiv unificat care procesează secvențe de caracteristici multimodale. Această abordare subliniază utilizarea datelor sintetice de înaltă calitate alături de datele din lumea reală, permițând modelului să se specializeze în generarea de imagini din descrieri textuale complexe, fără zgomotul găsit adesea în seturi de date diverse [2] [4]. Acest lucru contrastează cu Dall-E 3, care se bazează mai mult pe datele din lumea reală care pot introduce inconsecvențe în calitatea ieșirii [2] [5].Metrice de performanță
În testele de referință, cum ar fi DPG-Bench, care evaluează capacitatea de a genera imagini din prompturi complexe, Janus-Pro a obținut un scor general de 84,19, depășind ușor scorul Dall-E 3 de 83,50. În special, Janus-Pro a excelat în valori precum alinierea atributelor (89,4% vs. 88,39%) și manipularea relațiilor (89,32% vs. 90,58%), indicând puterea sa în interpretarea cu exactitate a relațiilor și atributelor descrise în prompturi dense [1] [3] [3] [3] ].Concluzie
Arhitectura inovatoare a lui Janus-Pro și pregătirea concentrată pe prompturi dense îi permit să se ocupe de sarcini complexe de generare a imaginilor mai eficient decât modele tradiționale precum Dall-e 3. prin utilizarea datelor sintetice și a codificatorilor specializați, Janus-Pro își îmbunătățește capacitatea de a produce coerent și vizual Apelează ieșiri din instrucțiuni complexe, setarea unui nou standard în capacitățile AI multimodale.Citări:
[1] https://www.prompthub.us/blog/deepseek-janus-pro-7b-model-overview-and-how-it-ranks-against-dall-e-3
[2] https://aman.ai/primers/ai/deepseek-janus-pro/
[3] https://arxiv.org/html/2501.17811v1
[4] https://aipapersacademy.com/janus-pro/
[5] https://www.datacamp.com/blog/janus-pro
[6] https://stackoverflow.com/questions/45448368/should-i-use-janusgraph-as-main-database-to--ll-my-data-for-a-new-project
[7] https://wandb.ai/byyoung3/ml-news/reports/deepseek-s-new-multi-modal-image-generation-model-janus-pro---vmlldzoxmteymjg2ma
[8] https://www.linkedin.com/pulse/introduction-deepseek-janus-pro-lionel-sim-j6oac