Deepseekが開発したJanus-Pro-7Bは、Dall-E 3のような他のモデルと比較して密なプロンプトを処理するための明確なアプローチを示しています。このモデルのアーキテクチャおよびトレーニング方法は、複雑な指示の解釈において優れたパフォーマンスに大きく貢献しています。
##分離アーキテクチャ
Janus-Proの重要な特徴の1つは、視覚的理解とテキストから画像の生成のタスクを分離する分離されたアーキテクチャです。この設計により、それぞれのタスクに合わせて微調整できる専門のエンコーダーが可能になり、出力生成の精度とコヒーレンスの両方が向上します。対照的に、Dall-E 3のようなモデルは、両方のタスクに単一のエンコーダーを使用します。これは、複雑なプロンプトを扱うときに競合やパフォーマンスの低下につながる可能性があります[1] [2]。
##密なプロンプトを使用したトレーニング
Janus-Proのトレーニング方法論は、マルチモーダル機能シーケンスを処理する統一された自動回復トランスを利用して、密な記述プロンプトに焦点を当てています。このアプローチは、実際のデータとともに高品質の合成データの使用を強調し、多様なデータセットによく見られるノイズなしに複雑なテキスト説明から画像を生成することをモデルが特化できるようにします[2] [4]。これはDall-E 3とは対照的であり、これは出力品質に矛盾をもたらす可能性のある現実世界のデータにより大きく依存しています[2] [5]。
##パフォーマンスメトリック
複雑なプロンプトから画像を生成する機能を評価するDPGベンチなどのベンチマークテストでは、Janus-Proは84.19の全体的なスコアを達成し、Dall-E 3のスコアをわずかに上回る83.50を達成しました。特に、Janus-Proは、属性アライメント(89.4%対88.39%)や関係処理(89.32%対90.58%)などのメトリックに優れており、密なプロンプト[1] [3 ]。
## 結論
Janus-Proの革新的な分離アーキテクチャと密集したプロンプトでの集中トレーニングにより、Dall-E 3のような従来のモデルよりも複雑な画像生成タスクをより効果的に処理できます。合成データと特殊なエンコーダーを活用することにより、Janus-Proはコヒーレントで視覚的に生成する能力を高めます。複雑な指示からの魅力的な出力は、マルチモーダルAI機能に新しい標準を設定します。
引用:
[1] https://www.prompthub.us/blog/deepseek-janus-pro-7b-model-overview-and-how-it-ranks-against-dall-e-3
[2] https://aman.ai/primers/ai/deepseek-janus-pro/
[3] https://arxiv.org/html/2501.17811v1
[4] https://aipapersacademy.com/janus-pro/
[5] https://www.datacamp.com/blog/janus-pro
[6] https://stackoverflow.com/questions/45448368/should-iuse-janusgraph-as-main-database-to-my-data-for-a-new-project
[7] https://wandb.ai/byyoung3/ml-news/Reports/deepseek-syek-sy--multi-modal-modal-model-model-janus-pro---vmlldzmteymjg2ma
[8] https://www.linkedin.com/pulse/introduction-deepseek-janus-pro-lionel-sim-j6oac