回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

文章导读:
通义Z-Image基础版发布,与Grok-Imagine-Image一同挑战“美学大师”Midjourney。本次测评聚焦水墨、动漫等六大流派的“美学”对决。结果显示:Z-Image以稳健的商业美学和精准指令忝居高位;Grok凭借侵略性的视觉张力在动感场景中脱颖而出;而Midjourney虽在文字与逻辑上有短板,却依然是无法撼动的审美天花板。这场评测不仅是对低价位模型能力的摸底,更是一次关于“AI审美”的深度探讨。

25年年度图像模型的总结测评中,我给到来自阿里通义的Z-Image-Turbo如下评价:“Z-Image-Turbo实属2025年末最令人眼前一亮的模型,实打实地证明了参数量并不能决定出图质量。凭借6B的参数体量,低门槛的本地硬件部署要求,快速的出图效率,宽松的审核尺度,却能够产出足够高质量的图像,尤其在人像拟真方面具备和SOTA级别模型掰手腕的能力。”,作为年度最佳开源图像模型,当之无愧。

1月末,通义发布了Z-Image模型,我们来看下官方的介绍,尤其关注其与Turbo版本的区别:

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Z-Image 是家族的基础模型,旨在提供良好的质量、强大的生成多样性、广泛的风格覆盖和精确的提示遵循。Z-Image-Turbo 是为速度而构建的,而 Z-Image 是一个全容量、未精炼的变换器,旨在成为需要最高创作自由度的创作者、研究人员和开发者的支柱。

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

主要特点:

✅未精炼基础:作为一个未精炼的基础模型,Z-Image 保留了完整的训练信号。它支持全面的无分类器引导(CFG),提供了复杂提示工程和专业工作流程所需的精确度。

✅美学多样性:Z-Image 精通广泛的视觉语言——从超现实主义摄影和电影数字艺术到复杂的动漫和风格化插图。它是需要丰富、多维表达场景的理想引擎。

✅增强的输出多样性:Z-Image 专为探索而设计,在不同种子下提供显著更高的构图、面部特征和光照的变化,确保多人场景保持独特和动态。

✅为开发而生:社区的理想起点。其非蒸馏特性使其成为 LoRA 训练、结构条件(ControlNet)和语义条件的良好基础。

✅强大的负控制:对负面提示高保真响应,使用户能够可靠地抑制伪影并调整构图。

表格对比:

功能Z-ImageZ-Image-Turbo
CFG (分类器自由引导)
Steps 步骤28~508
Fintunablity (微调能力)
Negative Prompting 负面提示
Diversity 多样性High 高Low 低
Visual Quality 视觉质量High 高Very High 非常高
RL ( 强化学习)

本周,302.AI也接入了Grok-Imagine-Image API,X的用户对该模型想必早已不陌生,其特点可归纳为高速,低价,审核尺度宽松。本期测评我不再围绕拟真进行,而是回归到更直观,根源的点来进行:美学,到底谁的图更好看。通过不同的艺术流派,手法,场景来测试以上两款低价位模型的美学能力。而提及审美,自然会搬出我心中Top 1的Midjourney参与对决,看看这款近1年未更新的老牌模型是否依然能打。

另附我近期看到的Nano Banana Pro 精品案例,想追求顶级的拟真度,还是交给SOTA模型来处理吧:

作者:@miilesus


I. 实测模型基础信息

(1)各实测模型在 302.AI 的价格:

模型名称302.AI内的价格
Z-Image$0.05/次
Grok-Imagine-Image$0.05/次
Midjourney-v7$0.05/次

(2)测评目标:

生成质量与美学:评估各模型在图像生成的视觉效果,包括提示词遵循、细节表现、以及是否存在伪影或失真等。

指令理解与执行准确性:测试模型对文本或图像指令的理解能力,检查编辑结果是否准确反映用户意图。

(3)测评工具:

均使用 302.AI 的 API 超市→在线调试功能

(4)测评方法:

各案例均使用统一的英文提示词进行生成,均取第一次生成结果,评测结果仅供参考。


II. 实战案例

案例1. 水墨画

测试点:人物面部,神态的写实刻画与水墨意境(泼墨/留白)的平衡,以及大漠环境的视觉转化。

提示词:

A masterpiece of traditional Chinese ink wash painting. A handsome lone swordsman (Xia Ke) standing amidst the vast, desolate Gobi desert. He has a sharp, defined face with icy, piercing eyes, sword-like eyebrows, and a high bridge of the nose, exhaling a stoic and unwavering determination. His long obsidian hair is tied in a high, messy bun with loose strands dancing in the desert wind.
Attire & Action: He is dressed in a tattered, flowing warrior’s robe, holding a long ancient sword (Jian) with a firm grip. His posture is dynamic, captured in a moment of stillness before a storm.
Environment: The background is a minimalist desert with faint, sweepingink strokes representing distant sand dunes and a hazy horizon. Swirling dust and sand are depicted through heavy ink splashes and charcoal textures.
Artistic Style: Bold calligraphic brushstrokes, visceral ink splashing (Pomo) technique, high contrast between stark black ink and the white negative space. Raw, expressive textures with watercolor-like bleeding effects. Cinematic composition, Zen-like atmosphere, elegant yet menacing. Photorealistic ink textures.

翻译:

【总述】 一幅中国传统水墨画杰作。一位容貌俊朗的孤独侠客伫立于辽阔荒凉的戈壁沙漠之中。他面部轮廓刚毅分明,目光冰冷而锐利,剑眉高鼻,透着一种坚毅不屈、岿然不动的神采。黑曜石般的长发束成高挑而凌乱的发髻,几缕乱发在沙漠的狂风中肆意飞舞。

【着装与动作】 他身着一件破损却飘逸的武士长袍,有力地紧握着一柄古朴的长剑。他的姿态充满动感,宛如被定格在暴风雨来临前夕那一瞬间的死寂之中。

【环境】 背景为极简主义风格的大漠,苍劲且寥寥几笔的墨色勾勒出远方的沙丘与朦胧的地平线。滚滚风沙通过浓重的泼墨技法与炭笔质感表现。

【艺术风格】 刚劲有力的书法笔触,极具视觉爆发力的泼墨技法,深邃的黑墨与大面积白色留白形成强烈的明暗对比。纹理原始且富有表现力,带有类似水彩的晕染与渗透效果。电影感构图,禅意意境,优雅中暗藏杀机。写实的水墨肌理。

Z-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Grok-Imagine-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Midjourney V7

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
测评点Z-ImageGrokMidjourney
整体美学⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
风格控制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
提示词遵循⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
简评MJ胜,艺术造诣最高。 它不仅仅是画了一张图,而是理解了中国水墨画“以形写神”的精髓。构图采用了极具动感的近景切入,留白运用得炉火纯青。人物美型,眼神完美还原了“冰冷而锐利”和“坚毅不屈”的神韵。笔触的层次,渐变最丰富,自动生成的书法题字和印章增加了整张作品的完整度。当然请忽略MJ不会中文这点,你只需要按照这个排版后期PS做个汉字替代即可。挑缺点的话,对大漠背景的描写偏向写意,不够明确;手持剑柄的结构经不起细看。

案例2. 日系动画

测试点:新海诚式细腻写实画风与中式建筑沉稳色彩的调和,以及对两只猫不同动作细节的体现。

提示词:

A breathtaking cinematic anime illustration in the signature style of Makoto Shinkai. Luminous atmosphere, ethereal lighting, and hyper-detailed background.

Subjects: Two cats interacting in a quiet alley.

  1. A fluffy, pristine white cat with sapphire blue eyes, sitting elegantly on a sun-drenched stone pavement, looking up curiously at the sky.
  2. A sleek, jet-black cat with glowing amber eyes, playfully stretching its body near a weathered wooden door, its fur shimmering with a slight blue rim light.

Background: Traditional Chinese architecture featuring a bold crimson red wall with subtle texture, aged grey-tiled roofs (Siheyuan style), and ornate hanging red lanterns. A vintage air conditioner unit and some potted plants are tucked in the corner, blending modern life with tradition.

Lighting & Atmosphere: Brilliant, crystalline golden hour sunlight pours from above, creating a stunning Tyndall effect with visible dust motes and long, dramatic shadows. The sky is a vibrant, deep cerulean blue with sweeping “Shinkai-style” cumulus clouds.

Details: High saturation, emotional cinematic color grading, lens flares, and a sense of nostalgic tranquility.

翻译:

【总述】 一幅令人惊叹的电影级动画插画,采用新海诚(Makoto Shinkai)标志性的艺术风格。画面充满发光的氛围、超凡脱俗的光影以及极高细节的背景。

【主体:两只在宁静小巷互动的猫】

  1. 白猫: 一只毛发蓬松、纯白无瑕的白猫,拥有一双蓝宝石般的眼睛。它优雅地坐在阳光洒满的石板路上,正带着好奇神情仰望天空。
  2. 黑猫: 一只身形矫健、漆黑如墨的黑猫,拥有一双发光的琥珀色眼睛。它在斑驳的木门旁俏皮地伸展着身体,毛发边缘在光线下闪烁着微弱的蓝色轮廓光。

【背景】 传统中式建筑,拥有一面带有细腻质感的鲜艳朱红墙壁,陈旧的灰瓦屋顶(四合院风格),以及悬挂着的华丽红灯笼。角落里塞着一台老式空调外机和几盆盆栽,将现代生活气息与传统底蕴完美融合。

【光影与氛围】 灿烂、清澈的“黄金时刻”阳光自上方倾斜而下,营造出迷人的丁达尔效应,空气中可见细小的微尘浮动,并形成长而富有戏剧性的阴影。天空呈现出鲜艳而深邃的蔚蓝色,飘浮着新海诚标志性的、如波浪般翻涌的巨型积云。

【细节规范】 高饱和度,充满情感张力的电影级调色,镜头光晕,以及一种怀旧而宁静的氛围感。

Z-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Grok-Imagine-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Midjourney V7

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
测评点Z-ImageGrokMidjourney
整体美学⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
风格控制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
提示词遵循⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
简评Grok胜。风格还原了新海诚超写实动漫的风格。色彩鲜艳,透视关系处理得好。主细节还原准确,如两只猫的眼睛颜色(蓝宝石 vs 琥珀色)。灯笼和建筑的细节极其锐利,镜头光晕处理得自然而拟真。扣分在黑猫动作,没有还原“俏皮地伸展着身体”。Z-Image提示词遵循和风格都没问题,但构图上的美感明显逊色,画面太空,主体不明确;MJ的配色/光影独一档,冷色调的青色暗部与暖色调的橙红形成了完美的视觉平衡,但猫的细节遵循欠佳。

案例3. 平面插画

测试点:文字渲染的准确性,无渐变平面色块风格。

提示词:

A stylish young girl with a messy top-knot bun, wearing sleek blue headphones, deeply focused on “Vibe Coding” at a minimalist desk. Her hands rest on a glowing laptop keyboard.

Typography: The text “Vibe Coding of 2026” is integrated into the composition.

  • Font Style: A clean, bold geometric sans-serif font (modern techno-minimalist style).
  • Color: The text is rendered in crisp white with a subtle thin coral-pink outline to pop against the background.
  • Position: The title is elegantly placed in the upper-left corner, following a professional editorial layout.

Visual Style: Flat color block illustration, minimalist vector art, sharp geometric lines, no gradients, solid colors only. High contrast between light and shadow.

Environment: A sunny, plant-filled workspace with a large window in the background. Bold, high-contrast shadows are cast across the desk.

Color Palette: A vibrant blend of teal blue, coral pink, mellow yellow, and deep forest green.

Composition: Side profile, 2D aesthetic, high-end tech magazine cover layout, clean white space.

翻译:

【主体与动作】 一位时尚的年轻女孩,梳着略显凌乱的高丸子头,戴着线条流畅的蓝色头戴式耳机,在极简主义风格的书桌前全神贯注地进行“氛围编程”。她的双手轻搭在发光的笔记本电脑键盘上。

【文字排版】 画面中融入了文本标题:“Vibe Coding of 2026”。

  • 字体风格: 干净、加粗的几何无衬线字体(现代科技极简主义风格)。
  • 色彩表现: 文字采用纯白色渲染,并带有微妙的珊瑚粉细边轮廓,使其从背景中脱颖而出。
  • 位置布局: 标题优雅地放置在左上角,遵循专业的杂志编辑排版布局。

【视觉风格】 平面色块插画,极简矢量艺术,线条锋利且具有几何感。严禁渐变,仅使用纯色块。光影之间呈现极高的对比度。

【环境设定】 阳光明媚且充满绿植的工作空间,背景有一扇大窗户。书桌上投射出强烈、高对比度的几何阴影。

【配色方案】 由青蓝色、珊瑚粉、柔和的暖黄色以及深森林绿构成的鲜艳且和谐的组合。

【构图规格】 侧面轮廓视角,2D美学,高端科技杂志封面布局,拥有干净的留白空间。

Z-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Grok-Imagine-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Midjourney V7

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
测评点Z-ImageGrokMidjourney
整体美学⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
风格控制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
提示词遵循⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
简评MJ胜。Z-Image风格正确,但人物肤色(胳膊,脖子)奇怪,整体高饱和颜色鲜艳,会有突兀感,字体排版并不美观;Grok挺好看,但是风格跑偏:忽略了平面色块”和“无渐变”的指令。画面呈现出强烈的数字绘画质感,带有大量的软光影和环境渲染;MJ老问题,不要指望它能绘制准确的文字,即便就这么简单的字母和数字组合。但除此,它精准地使用了大面积色块、硬边缘阴影,线条锐利且具有几何美感。通过合理,柔和的色彩搭配(青蓝、珊瑚粉、暖黄),视觉舒服,体现了一流的审美水平。

这里顺便展示下之前的案例,这两张就是MJ跑的。配色,人物形象完全满足我审美要求,只需后期排版加入文字即可成为一张高质量封面图。

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

案例4. 水彩画

测试点:对半透明水彩艺术风格的掌握,多人物的肢体表现以及复杂的室内建筑透视。

提示词:

A man in a tailored black suit sits at a grand piano in an ornate hall, his fingers dancing across the keys with deep focus and emotional intensity. Standing gracefully beside the piano, a woman in a flowing white linen dress leans slightly in, listening with a captivated and serene expression, her eyes filled with soulful admiration.

Setting: A grand, classical ballroom with high ceilings, intricate moldings, and large arched windows.

Style: Artistic watercolor sketch, loose ink outlines, architectural drawing aesthetic. Vibrant splashes of transparent color in shades of violet, amber, and sky blue.

Lighting: Dramatic golden sunbeams pour through the windows, creating bold geometric patches of light and shadow on the floor.

Vibe: Airy, elegant, and romantic. High contrast, expressive brushstrokes.

翻译:

【主体与动作】 一位身穿合体黑西装的男子坐在一座华丽大厅的大钢琴前,他的手指在琴键上跳跃起舞,神情极度专注,散发出浓烈的情感张力。钢琴旁,一位身着飘逸白色亚麻连衣裙的女子优雅地伫立,她微微侧身倾听,神情入迷而宁静,眼神中充满了深情的赞赏。

【环境设定】 一座宏大的古典舞厅,拥有高挑的天花板、精致的装饰线条和巨大的拱形窗户。

【视觉风格】 艺术感十足的水彩速写风格,带有松散的墨迹勾勒线条,呈现出建筑图纸般的美学感。画面中点缀着紫色、琥珀色和天蓝色色调的明亮透明泼彩。

【光影表现】 极具戏剧性的金色阳光穿透窗户洒入室内,在地面上形成了鲜明的几何状光影图块。

【氛围细节】 画面整体轻盈、优雅且浪漫。高对比度,极具表现力的笔触。

Z-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Grok-Imagine-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Midjourney V7

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
测评点Z-ImageGrokMidjourney
整体美学⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
风格控制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
提示词遵循⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
简评MJ胜。顶级的艺术审美, MJ充分展示了水彩之美。它的笔触狂放且具有表现力,光影的渲染甚至带有一种宗教般的圣洁氛围,具有透明感。虽然女性明显没有遵循“站立”的要求,但人物动作&构图在视觉上并不会有问题。Z-Image也足够出色,钢笔勾线细腻且灵动,色彩的晕染具有真实纸张的渗透感。人物动作准确自然,画面具有叙事感和浪漫氛围。但背景中的水彩色块有饱和度过重,过浓的问题,视觉上不够平衡。

案例5. 黑白素描

测试点:利用黑白素描的单一介质表现出动态速度感,还原车辆以及道路环境的精度。

提示词:

Raw, expressive charcoal and ink wash sketch. Gritty architectural sketching style. Subject: A Nissan GT-R R34 blurring past slower traffic on the Shuto C1 Loop. Composition: High-impact “chase-cam” POV. A slight Dutch tilt (tilted horizon) to enhance the sense of frantic speed and chaos. Details: The R34 is the only semi-sharp element, with its signature rear wing and body kit meticulously sketched, while surrounding cars are reduced to ghost-like, blurred shapes and flowing light trails in charcoal. Vibe: The energy of midnight street racing. Aggressive, fast-paced, and cinematic. Visible pencil strokes, graphite dust textures, and rough paper tooth. Lighting: Stark highlights from overhead highway lights creating high-contrast glares on the car’s surface. No color, black and white only.

翻译:

【视觉风格】 粗犷且富有表现力的炭笔与水墨晕染素描。带有颗粒感的硬核建筑草图风格。

【主体描述】 一辆 Nissan GT-R R34 在东京首都高 C1 环线上疾速穿梭,瞬间超越周围缓慢的车流。

【构图视角】 极具视觉冲击力的“追踪摄像机”视角。采用轻微的“倾斜”构图,以强化那种疯狂的速度感与混乱的动感张力。

【细节刻画】 R34 是画面中唯一保持半清晰的元素,其标志性的后尾翼和车身套件被精细地勾画出来;与之相对,周围的车辆被简化为幽灵般的模糊形状,以及用炭笔涂抹出的流动光影轨迹。

【氛围细节】 午夜街头赛车的能量感。充满侵略性、快节奏且极具电影叙事张力。画面保留可见的铅笔笔触、石墨粉尘纹理以及粗糙的纸张颗粒感。

【光影表现】 来自上方高速公路路灯的冷峻高光,在汽车表面形成高对比度的闪烁反光。

【色彩规范】 纯黑白,无色彩。

Z-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Grok-Imagine-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Midjourney V7

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
测评点Z-ImageGrokMidjourney
整体美学⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
风格控制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
提示词遵循⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
简评Grok胜。风格还原最为准确,体现了炭笔涂抹的颗粒感和飞白,强烈的明暗对比极具氛围。构图合理,还原了“追踪摄像机视角”和“倾斜”的视角要求。画面中强烈的速度线让 R34 充满速度感。MJ的审美依然顶级,但是风格不够准确,它的笔触介于精细素描与版画之间,车身过于油润失去了粗糙的颗粒感。背景中东京街头的招牌、建筑结构被刻画得非常有层次,但是这是街道公路,而非C1环线。

案例6. 波普艺术

测试点:品牌一致性(iPhone的特征)、文本渲染以及波普艺术特定技法(丝网印纹理、撞色逻辑)。

提示词:

An iconic 2×2 grid silkscreen print advertisement in the signature style of Andy Warhol. Subject: Each of the four quadrants features a stylized iPhone 17 from a slightly different angle, rendered in clashing, high-saturation pop art color palettes (e.g., Electric Lime/Hot Pink, Cobalt Blue/Safety Orange, Canary Yellow/Deep Purple). Typography: Centered in the middle or along the bottom, the text “iPhone 17” and the slogan “THE FUTURE IS AN ICON” are rendered in a bold, black, slightly messy hand-stamped font. Visual Rules: Bold black graphic outlines, flat color fields, visible silkscreen ink texture, intentional slight color misalignment (ink offset), and heavy graphite grain. Tone: High-end commercial pop art, avant-garde tech marketing.

翻译:

【总述与风格】 一幅标志性的 2×2 网格丝网印刷广告,采用安迪·沃霍尔(Andy Warhol)标志性的艺术风格。

【主体描述】 四个象限中的每一个都展示了一个风格化的 iPhone 17,角度各不相同。每格均采用高饱和度的撞色波普调色盘渲染(例如:荧光青柠色对撞亮粉色、钴蓝色对撞安全橙色、金丝雀黄色对撞深紫色)。

【排版设计】 文字 “iPhone 17” 和标语 “THE FUTURE IS AN ICON”位于画面中心或沿底部排列,采用粗体、黑色、且略显凌乱的手工盖印字体。

【视觉规则】 大胆的黑色图形线条轮廓,大面积平涂色块,肉眼可见的丝网印刷油墨纹理。刻意的轻微颜色错位以及浓重的石墨颗粒感。

【调性与规格】 高端商业波普艺术,前卫科技营销风格。

Z-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Grok-Imagine-Image

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

Midjourney V7

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
测评点Z-ImageGrokMidjourney
整体美学⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
风格控制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
提示词遵循⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
简评Z-Image胜。它是唯一一个准确且清晰地在四个象限中都还原了“THE FUTURE IS AN ICON”标语的模型。文字的排版位置也非常符合商业海报的设计逻辑。风格还原出色。体现了“丝网印油墨纹理”和“边缘渗墨感”的风格。每个象限的配色也符合提示词要求的“高饱和度对撞”。手机外形基本还原“iPhone 17”,但苹果的Logo有瑕疵。MJ的话风格化强烈,充满Warhol那种随性,狂野的笔触,但问题一是文字,二是手机造型错误,这就后期很难修复。

III. Z-Image 图像模型实测结论

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
案例胜者Z-Image 得分Grok 得分Midjourney 得分
水墨画Midjourney111114
日系动画Grok131411
平面插画Midjourney121014
水彩画Midjourney13814
黑白素描Grok61412
波普艺术Z-Image14913

经历了6轮实测,想必各位也对这3款低价位的模型,在美学以及能力边界上有了更直观的认知。

依次来看:

1️⃣ Z-Image:稳健且标准的商业美学

Z-Image的美学风格相对“稳健且标准”,除案例5的素描案例外,其他案例得分均不低,都排名第二。

它的画面特点:

  • 干净、利落
  • 完成度较高
  • 符合现代商业设计的审美直觉

在本次测试中,它是唯一能做到以下几点的模型:

  • 严格遵循提示词要求
  • 精准还原长句文字
  • 严格执行空间定位

局限也很明显,它能作为合格的商业设计师,但当不了个性鲜明的艺术家。

2️⃣Grok-Imagine:硬核且具侵略性的视觉张力

Grok的指令遵循也相当优秀,构图,细节要求基本都能准确还原用户要求。

它的擅长领域:

动态感与速度感

  • 捕捉”瞬间的张力”(如运动员起跑瞬间)
  • 营造”疾驰的速度”(如赛车呼啸而过)
  • 画面往往带有鲜明的色彩表现,带来不错的冲击力

缺点的话,张力有余,细腻不足。典型如案例3插画,4水彩画,整体风格方向是对的,但对于笔触,色彩的表达过渡,就造成了整体风格偏移,美感下降。

3️⃣ Midjourney:金字塔顶的艺术大师

如果以上6则案例,抛开提示词的要求,忽略文字错误,只看图来选,Midjourney 6轮全胜都不算离谱。

美学上,从色彩,光影,构图,到特定艺术风格的笔触,MJ就是能带来更为细腻而准确的高级感。

比如案例1水墨画武士,前两张其实也都不错,但是MJ这张的武士,一个眼神就杀死了比赛。

这就像手机极速攀升的摄影硬件搭配软件算法,拍出来的东西,和真正相机摄影比,总还是差那么一点“味道”。

至于它的短板就很明显了,文字渲染无力,世界知识匮乏(比如Iphone 17应该是什么样),提示词遵循度不够,以及2026年了还会出现的比如手指错误,这类竞品早都解决掉的问题。

2026年,相较于大而全的SOTA级模型比如Nano Banana Pro,GPT-Image-1.5,我希望看到更多有自己鲜明个性的图像模型,尤其是小模型,在某个特定维度,做到极致,做出个性。

如果AI图像生成的竞争,真的只是参数量、数据集、算力的军备竞赛,那这个游戏早就结束了,毕竟若是单论财力与技术力的话,谷歌即可垄断,而美学并不一定要和参数量挂钩。


Ⅳ. 如何在 302.AI 上使用

302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

使用模型 API

步骤指引:API超市→图片生成→302.AI

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
https://302.ai/product/detail/z-image
回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

点击【立即体验】在线调用 API

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室

想即刻体验 Z-Image 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

回归美学测试:实测Z-Image,Grok Imagine与Midjourney丨302.AI 基准实验室
All Rights Reserved by 302.AI
喜欢 (0)
302.AI302.AI
上一页 2026 年 2 月 3 日 下午7:39
下一页 2026 年 2 月 9 日 下午5:30

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注