Janus-pro-7b, développé par Deepseek, démontre une approche distincte de la gestion des invites denses par rapport à d'autres modèles comme Dall-E 3. Les méthodes d'architecture et de formation de ce modèle contribuent de manière significative à ses performances supérieures dans l'interprétation des instructions complexes.
Architecture découplée
L'une des principales caractéristiques de Janus-Pro est son architecture découplée, qui sépare les tâches de compréhension visuelle et de génération de texte à l'image. Cette conception permet des encodeurs spécialisés qui peuvent être affinés pour leurs tâches respectives, améliorant la précision et la cohérence de la génération de sortie. En revanche, des modèles comme DALL-E 3 utilisent un seul encodeur pour les deux tâches, ce qui peut entraîner des conflits et une réduction des performances lorsqu'ils traitent des invites complexes [1] [2].Formation avec des invites denses
La méthodologie de formation de Janus-PRO se concentre sur des invites descriptives denses, en utilisant un transformateur autorégressif unifié qui traite des séquences de fonctionnalités multimodales. Cette approche met l'accent sur l'utilisation de données synthétiques de haute qualité aux côtés de données du monde réel, permettant au modèle de se spécialiser dans la génération d'images à partir de descriptions textuelles complexes sans le bruit souvent trouvé dans divers ensembles de données [2] [4]. Cela contraste avec Dall-E 3, qui s'appuie davantage sur des données réelles qui peuvent introduire des incohérences de la qualité de sortie [2] [5].Metrics de performance
Dans des tests de référence tels que DPG-Bench, qui évalue la capacité de générer des images à partir d'invites complexes, Janus-PRO a obtenu un score global de 84,19, surprenant légèrement le score de Dall-E 3 de 83,50. Notamment, Janus-Pro a excellé dans des métriques comme l'alignement des attributs (89,4% contre 88,39%) et la manipulation des relations (89,32% contre 90,58%), indiquant sa force pour interpréter avec précision les relations et les attributs décrits dans des invites denses [1] [3 ].Conclusion
L'architecture découplée innovante de Janus-PRO et une formation ciblée sur des invites denses lui permettent de gérer des tâches de génération d'images complexes plus efficacement que les modèles traditionnels comme Dall-E 3. En tirant parti des données synthétiques et des encodeurs spécialisés, Janus-Pro améliore sa capacité à produire des cohérentes et visuale Sorties attrayantes à partir d'instructions complexes, définissant une nouvelle norme dans les capacités d'IA multimodales.Citations:
[1] https://www.prompthub.us/blog/deepseek-janus-pro-7b-model-overview-and-how-it-ranks-against-dall-e-3
[2] https://aman.ai/primers/ai/deepseek-janus-pro/
[3] https://arxiv.org/html/2501.17811v1
[4] https://aipapersacademy.com/janus-pro/
[5] https://www.datacamp.com/blog/janus-pro
[6] https://stackoverflow.com/questions/45448368/should-i-use-janusgraph-as-main-database-to-tore-all-my-data-for-a-new-project
[7] https://wandb.ai/byyoung3/ml-news/reports/deepseek-snew-multi-modal-image-generation-model-janus-pro---vmlldzoxmteymjg2ma
[8] https://www.linkedin.com/pulse/introduction-deepseek-janus-pro-lionel-sim-j6oac