阿里巴巴 Qwen 團隊發布新一代基礎影像生成模型 Qwen-Image-2.0,原生支持 2K 高解析度、長指令(最多 ~1,000 tokens) 以及高保真視覺細節,從而大幅提升海報、簡報、資訊圖、漫畫等應用的效率與輸出品質,相較於常見生成工具,Qwen-Image-2.0 特別強調 可將清晰、可讀的文字直接嵌入圖像內容,使其適合真實設計/生產工作流程。
Qwen-Image-2.0 採用整合式生成與編輯框架,而非傳統「Text-to-Image」與「Image-to-Image」分離模型,並且共享 latent 空間與語義表示,使編輯行為本質上為「條件再生成」,降低 artifacts,減少 pipeline 切換成本與語義漂移(semantic drift)。
發布亮點
- 專業排版渲染:支援 1k 個標記的指令,可直接產生專業資訊圖,包括 PPT、海報、漫畫等。
- 更強的語意一致性:原生支援 2K 分辨率,可呈現精細逼真的場景,包括人物、自然和建築。
- 改進的文本渲染:整合了理解和生成功能,將圖像生成和編輯統一到一個模式下
- 更輕量級的模型架構:更小的模型尺寸和更快的推理速度。
Qwen-Image-2.0 文字渲染能力的五個關鍵特性:精準、複雜、美觀、逼真和對齊,在非文字場景中也顯著提升了照片級真實感。除了文字轉影像功能外,Qwen-Image-2.0 還提供了增強的影像編輯功能,由於這是一個統一的生成和編輯(全功能)模型,生成端文本渲染和照片級真實感的提升能夠直接惠及所有編輯任務。
相比其他模型,Qwen-Image-2.0 明顯朝商業設計、品牌素材、宣傳圖文整合方向進行調整和最佳化。
https://qwen.ai/blog?id=qwen-image-2.0
Picture Source
Alibaba Qwen