阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出

阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出

8 月 5 日消息,阿里通义千问团队宣布开源 Qwen-Image,这是一个 20B 的 MMDiT 模型,也是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。Qwen-Image 在所有基准测试中均取得了最先进的性能。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。(IT 之家)

原创文章,作者:网站编辑,如若转载,请注明出处:https://www.devcn.xin/1522.html

(0)
网站编辑的头像网站编辑
上一篇 21小时前
下一篇 9小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注