Janus-Pro-7B của Deepseek đã nổi lên như một đối thủ đáng chú ý trong bối cảnh tạo hình ảnh AI, đặc biệt là các mô hình đã được thiết lập như Dall-E 3 của Openai và sự ổn định của AI. Đây là cách nó so sánh giữa các chiều khác nhau:
Số liệu hiệu suất
** Độ chính xác tổng thể: Janus-Pro-7B đã đạt được độ chính xác tổng thể ấn tượng là 80% trong các nhiệm vụ hình ảnh văn bản, vượt qua 67% của Dall-E 3 và 74% khuếch tán ổn định. Số liệu này phản ánh khả năng của mô hình để tạo ra các đầu ra phù hợp chặt chẽ với các lời nhắc của người dùng trên các tác vụ khác nhau [2] [4].
** Độ chính xác đối tượng đơn: Trong việc tạo các đối tượng riêng lẻ từ các lời nhắc đơn giản, Janus-Pro-7B đạt 99%, so với 96%của Dall-E 3. Điều này cho thấy rằng Janus-Pro vượt trội tại việc mô tả chính xác các mục cụ thể được người dùng yêu cầu [2].
** Căn chỉnh vị trí và thuộc tính: Janus-Pro-7B cũng hoạt động tốt trong căn chỉnh vị trí (90% so với Dall-E 3 của 83%) và căn chỉnh màu/thuộc tính (79% cho màu so với Dall-E 3 của 43%) Â Chỉ ra rằng nó tốt hơn trong việc đặt các đối tượng một cách chính xác và phù hợp với màu sắc một cách chính xác trong các hình ảnh được tạo [2].
Xử lý lời nhắc phức tạp
Janus-Pro-7B thể hiện khả năng mạnh mẽ trong việc quản lý các lời nhắc dày đặc, đạt 84,19 trên điểm chuẩn DPG-Bench, đánh giá khả năng diễn giải và tạo hình ảnh của mô hình từ các mô tả phức tạp. Dall-e 3 theo sát với số điểm 83,50 ** [2] [4]. Khả năng này rất quan trọng đối với những người dùng yêu cầu tạo hình ảnh chi tiết và sắc thái.
Tính linh hoạt sáng tạo so với chủ nghĩa hiện thực
Trong khi cả Janus-Pro và Dall-E 3 được thiết kế để linh hoạt sáng tạo, chúng phục vụ cho các nhu cầu hơi khác nhau. Dall-e 3 được ghi nhận cho hình ảnh tưởng tượng và trừu tượng của nó, làm cho nó phù hợp cho các ứng dụng nghệ thuật. Ngược lại, Janus-Pro-7B có xu hướng tạo ra những hình ảnh thực tế hơn, điều này có thể thu hút người dùng đang tìm kiếm chất quang học [8]. Tuy nhiên, nó đã đấu tranh với việc tạo ra các nhân vật của con người một cách hiệu quả, điều này có thể hạn chế khả năng ứng dụng của nó trong một số bối cảnh nhất định [2].
Chi phí và khả năng tiếp cận
Các mô hình của Deepseek được quảng cáo là được phát triển với một phần chi phí so với các đối tác phương Tây như Openai. Cách tiếp cận hiệu quả chi phí này có thể giúp Janus-Pro dễ tiếp cận hơn đối với các nhà phát triển và doanh nghiệp đang tìm cách tích hợp tạo hình ảnh AI mà không phải chịu các chi phí đáng kể [6] [4]. Ngoài ra, Janus-Pro có sẵn theo mô hình nguồn mở, cho phép sử dụng rộng hơn và cơ hội tùy chỉnh [3].
Phần kết luận
Tóm lại, Janus-Pro-7B của Deepseek trình bày một sự thay thế hấp dẫn cho các trình tạo hình ảnh AI hiện có như Dall-E 3 và khuếch tán ổn định. Với các số liệu hiệu suất vượt trội về độ chính xác và xử lý kịp thời, bên cạnh bản chất hiệu quả về chi phí của nó, nó tự định vị là một ứng cử viên mạnh mẽ trong thị trường tạo hình ảnh AI. Tuy nhiên, người dùng tiềm năng nên xem xét những hạn chế của nó trong việc tạo ra số liệu của con người khi đánh giá sự phù hợp của nó cho các ứng dụng cụ thể.
Trích dẫn:
[1] https://www.livescience.com/technology/artificial-intelligence/deepseek-stuns-tech-industry-with-new-ai-image-generator-that-beats-openais-dall-e-3
[2] https://www.prompthub.us/blog/deepseek-janus-pro-7b-model-overview-and-how-it-ranks-against-dall-e-3
[3] https://janusai.pro
[4] https://www.androidauthority.com/deepseek-janus-pro-vs-competition-3521619/
[5] https://huggingface.co/deepseek-ai/janus-pro-7b
[6] https://www.tomsguide.com/ai/deepseeks-new-ai-imager-generator-is-here-to-take-on-midjourney-and-dall-e-what-we-know
[7] https://fal.ai/models/fal-ai/janus
.
[9] https://www.youtube.com/watch?v=rng-mvun_fq