
GLM-Image
智谱旗舰图像生成模型,采用混合自回归+扩散解码器架构
2026-01-14
价格:
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
GLM-Image 是智谱AI推出的旗舰级图像生成模型,核心定位为“认知型生成:全局指令理解 + 局部细节刻画”的新一代多模态生成基座。
- 混合架构创新:采用「9B 自回归模型 + 7B DiT 扩散解码器」混合架构,兼顾语义理解与高频细节还原,显著改善文字生成准确性
- 文字密集场景领先:在 CVTG-2K 与 LongText-Bench 榜单中达开源 SOTA,中文文字准确率 0.9788,英文 0.9524,适用于海报、PPT、科普图等知识密集型生成
- 国产全栈训练:全程基于昇腾 Atlas 800T A2 芯片与 MindSpore 框架完成训练,是首个国产芯片全流程训练的 SOTA 多模态生成模型
- 灵活分辨率支持:原生支持 1:1、3:4、16:9 等比例,尺寸范围 512×512 至 2048×2048(需为 32 的整数倍),适配多端展示需求
───────────────────────────────────────────────────────────────────
核心能力
🖋️ 精准文字嵌入:在商业海报、招牌、甚至复杂的对话框中渲染出排版准确、笔画工整的中英文。
📽️ 商业海报专家:具备极强的视觉构图与层次感,适用于生成具有设计感的节日海报、品牌宣传图及多样化的社交媒体素材。
🔬 科普逻辑插画:能够理解复杂的提示词逻辑,准确绘制带有标注的科学原理图、流程图,确保画面美观与知识传递的统一。
👥 高质量写实人像:结合 DiT 架构的细节刻画能力,可生成皮肤肌理自然、光影斑驳、发丝纤毫毕现的写实摄影级人像。
📖 连贯多格创作:在生成电商展示图、连环故事画时,能较好地保持主体形象一致性,并能同步优化多处细节文字。
───────────────────────────────────────────────────────────────────
───────────────────────────────────────────────────────────────────
相关测评
《国产开源GLM-Image实测:文字渲染登顶SOTA,画面质感仍是最大瓶颈》
API调试台
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽