Janus-Pro-7B, розроблений DeepSeek, демонструє чіткий підхід до обробки щільних підказок порівняно з іншими моделями, такими як DALL-E 3. Архітектура та методи навчання цієї моделі значно сприяють його чудовому виконанню в інтерпретації складних інструкцій.
роз'єднана архітектура
Однією з ключових особливостей Janus-Pro є його роз'єднана архітектура, яка розділяє завдання візуального розуміння та генерації тексту до образу. Ця конструкція дозволяє створити спеціалізовані кодери, які можуть бути тонкими для їх відповідних завдань, підвищуючи як точність, так і узгодженість у виробництві. На відміну від цього, такі моделі, як Dall-E 3, використовують єдиний кодер для обох завдань, що може призвести до конфліктів та зниження продуктивності при роботі з складними підказками [1] [2].Навчання з щільними підказками
Методологія навчання Janus-Pro зосереджена на щільних описових підказках, використовуючи єдиний авторегресивний трансформатор, який обробляє мультимодальні послідовності функцій. Цей підхід наголошує на використанні високоякісних синтетичних даних поряд із даними в реальному світі, що дозволяє моделі спеціалізуватися на генеруванні зображень із складних текстових описів без шуму, який часто зустрічається в різних наборах даних [2] [4]. Це контрастує з DALL-E 3, який більше покладається на дані в реальному світі, які можуть ввести невідповідності якості виходу [2] [5].показники продуктивності
У тестах, таких як DPG-Bench, який оцінює здатність генерувати зображення зі складних підказок, Janus-Pro досяг загальної оцінки 84,19, трохи перевершивши показник Далла-Е 3 83,50. Зокрема, Janus-Pro відзначився в таких метриках, як вирівнювання атрибутів (89,4% проти 88,39%) та поводження з відношеннями (89,32% проти 90,58%), що свідчить про її силу при точно інтерпретації взаємозв'язків та атрибутів, описаних у щільних підказках [1] [3] [3] [3] [3] [3] [3] [3] [3 ].Висновок
Інноваційна роз'єднана архітектура та цілеспрямована підготовка до щільних підказок Janus-Pro дозволяє їй виконувати складні завдання генерування зображень ефективніше, ніж традиційні моделі, такі як Dall-E 3. Використовуючи синтетичні дані та спеціалізовані кодери, Janus-Pro підвищує його здатність виробляти когерентні та візуально Зверніші результати з складних інструкцій, встановлюючи новий стандарт у багатомодальних можливостях AI.Цитати:
[1] https://www.prompthub.us/blog/deepseek-janus-pro-7b-model-overview-and-how-it-ranks-against-dall-e-3
[2] https://aman.ai/primers/ai/deepseek-janus-pro/
[3] https://arxiv.org/html/2501.17811v1
[4] https://aipapersacademy.com/janus-pro/
[5] https://www.datacamp.com/blog/janus-pro
4
.
[8] https://www.linkedin.com/pulse/introduction-deepseek-janus-pro-lionel-sim-j6oac