用完豆包P图4.0,我在朋友圈就没输过

互联网
2025
09/09
14:17
分享
评论

给大家介绍一下,这是我家一位练习时长四年半的小狗:

图片 1.png

我一直很喜欢这张照片,因为它充分展现了家里所有人对它的娇宠。

前两天我拿到了豆包的Seedream4.0的内测码。

操作流程很简单:“打开豆包App对话框→点击【AI 生图/生视频】→点击输入框→选择上传参考图→输入文字指令”。

图片 2.png

很多人跟我说,这是中国的Nano Banana,尤其在精准指令编辑方面,它经常表现得甚至更加出色。我刚好在整理旧手机的相册,准备以除旧迎新的积极态度迎接果年春晚(不一定真买),于是干脆把这张照片扔给了Seedream4.0,并对它说:

“给它戴上好看的华丽的丰富的首饰。”

这个prompt是我瞎想的,细究起来甚至是有点语病的。我想起现在网上到处都是教人写,像小作文一样长的Nano Banana的prompt,这样去折腾内测码,其实是有点惭愧的。

然后Seedream4.0给我生成了一张毫无违和感的图。

图片 3.png

我立马就不困了,因为这个照片还原度实在是太高了。

最绝的是,这狗虽然全身是珠宝,但珠宝都不亮,所有的反光都很克制——可以说是完美地还原了北京老破小房间里的黯淡。

可不能就这么委屈了这满身的珠宝。于是我对Seedream4.0说,“将它置身于一个舞厅里。”

图片 4.png

Seedream4.0不仅选了一个跟珠宝配色很搭的场景环境色,连珠宝的饱和度和亮度也明显提高了,首饰的色泽跟随环境的变化明显更鲜艳了,毛发边缘的光线散射也发生了变化,仿佛它真的穿越到了那个舞厅里。

它的还原度如此之高,以至于Seedream4.0简直变成了一种赛博阿拉丁神灯。

养过狗的人大概都知道,狗狗的表情很丰富,而且有一个完整属于自己的世界。这件事情的副作用是,铲屎官抓拍的表情经常是悬浮于环境和场合的。但有了Seedream4.0的惊艳表现,我决定尝试给不同的小狗表情配上不同的场景。

操作步骤与第一张图的流程一样,先换一身衣服,再换背景。这样prompt的成功率很惊人,只要想好人物与场景的关系,几乎没有出现过因为特征扭曲而导致的废片。

背景替换不是一个今天才有的功能,但Seedream4.0让人惊艳的有两点:

第一,它兼具精准指令编辑能力与高度特征保持能力

你不希望它改变的地方,它都能完整保留下来。无论是照片里的水汽,还是毛发与皮肤的纹路,几乎都没有发生任何一眼可见的变化。

在图片中,你看不到任何AI油光水滑的油腻感,或者自动加噪引发的真实感,每一张图片都是自然的。

第二,在“第一”的基础上,它呈现了一定的世界观的能力

比如,在酒店当迎宾员的小狗,阳光角度近似但不同,在脖子上留下的阴影角度也随之有了细微的变化;叼着烟的牛仔,他的面部沟壑有轻微的加深;在航天飞船里,人的手臂也跟着小狗多出了一截太空服。

这些都不是简单的环境色渲染的结果,它们意味着模型已经有了很实打实的对现实理解能力,只是它很克制,但你仔细看就能发现它无处不在。

为了进一步探索模型对现实的理解和推理能力,我做了更多的尝试。

这是我从unsplash下载的一张图,图里是一块老式的俄制的老式指针式直流电流表。

我对Seedream4.0说,“将指针移动到右边。”

说实话我当时有点惊讶,它对“右”的理解很精准。在这张图里,“右”不是一个横向水平的正东的朝向,而是在20刻度线偏右一点的位置上,这与人们的日常经验是完全符合的。

我继续试验了一下文本推理能力,同样是unsplash上随机找到的一张训练图。

我告诉Seedream4.0,将球衣数字换成“梅西在美国大联盟的球衣号码”。

Seedream4.0 自己确认了准确地球衣号码,找到了球衣数字,再替换了球衣数字,甚至连球衣上的纹理都做了还原。

我在图库里刚好看到一道被故意算错了的数学题。

于是我让seedream4.0将答案修改正确。

从以上图片编辑的效果来看,Seedream4.0的文字编辑能力是很惊艳的。而在实测中,它甚至可以改变大段的文字。所以,你甚至可以在这个自然语言生成图像的工具里,直接通过自然语言修改字幕了。

甚至你可以让Seedream4.0尝试更高阶的玩法,让它直接翻译图片里的中文。它在翻译过程中,依然能保证画面和文字的质感是稳定不跳脱的,上下的字体也都维持了原来的样子。

只要你曾经用过AI生图工具,就会知道这件事情有多夸张。在此之前,只有nano banana算做到了这件事情。

测到这里,我想所有人脑子里都会自然而然地跳出,“这不就是中国的nano banana”。

所以我决定直接测一些nano banana的热门demo。

比如,将之前的狗狗照片生成“手办”图。

还有许多人关注的OOTD(今日穿搭),我想在你们看到这篇测评的时候,OOTD已经被不少同行给玩透了。所以我结合这次的图片修复功能,为OOTD功能整一些不一样的花活。

首先,我们请出学神爱因斯坦老师。这是它一张不多见的全身照。

图片 5.png

然后我们告诉Seedream将它修复。

图片 6.png

我从巴黎世家的官网找到了衣服、裤子和鞋子,于是有了一个跨越时空的穿搭。

图片 7.png

可以看到Seedream4.0对整体产品的还原度都是在线的,裤子的做旧细节和鞋子的纹路都实现了还原。

(不过Seedream对合规的审核很严格,名人穿搭不太容易过审,经常会被ban,大家可以谨慎尝试)

在文字直接生成图片方面,Nano Banana 官方前段时间曾开放了六个示例,涉及到了不同的能力侧面。我想,谷歌方面试图从这六个示例,以完整呈现其在不同场景的生图能力。而且为了辅助用户上手,Nano Banana 还贴心地给了prompt提示词和对应的生图节奏。

对于一家AI媒体来说,或许很难找到比这六个示例更能直观展现Seedream4.0和Nano Banana的能力与风格对比了。

因此我将这六个示例的prompt都导入了内容,左边是Nano Banana,右边是Seedream4.0。Seedream 4.0有时会生成多张图,考虑到Nano Banana提供的是官方示例,我也会选择多张图中自认为最好的那一张。如果生成水平差不多,我就默认选择第一张。

示例一

A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.一幅逼真的特写肖像,描绘了一位年长的日本陶艺家。他脸上布满深深的、被阳光刻蚀的皱纹,露出温暖而洞悉一切的笑容。他正仔细端详一只刚上釉的茶碗。场景设定在他那间质朴、阳光充足的工作室里。柔和的黄金时刻光线透过窗户洒入,照亮了陶土细腻的纹理。作品由 85 毫米人像镜头拍摄,背景呈现柔和的虚化效果(焦外成像)。整体氛围宁静而尽显大师风范。肖像采用竖版构图。(豆包翻译)

图片 8.png

相比于Nano Banana,Seedream4.0对“85 毫米人像镜头”的把控更好,镜头虚化效果的还原度更高,面部沟壑更自然。在前文提及的世界观方面,Seedream4.0的阳光感更好,一看就是夕阳“黄金时刻”的阳光,在房间里光漫射效果也很到位。

总体来说,Nano Banana的AI感更强,属于一眼AI图;但Seedream4.0乍一眼,真的会以为是一张照片。

不过豆包似乎对“ freshly glazed ”的理解不太一样,因此陶瓷的釉面没有上完。因此,这个示例算平手。

示例二

A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.一张可爱风格的贴纸,上面是一只开心的小熊猫,它戴着一顶小小的竹帽,正在啃一片绿色的竹叶。设计采用鲜明清晰的轮廓、简单的赛璐珞 shading 技法和鲜艳的色彩搭配。背景必须是白色的。(豆包翻译)

图片 9.png

都很可爱,个人喜欢banana的风格,但Seedream4.0似乎更符合prompt里“vibrant color palette”的设定。

示例三

Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white.为一家名为 “The Daily Grind” 的咖啡店设计一个现代简约风格的标志。文字部分采用简洁、粗体的无衬线字体。设计中需包含一个简约的、风格化的咖啡豆图标,与文字无缝融合。配色方案为黑白两色。(豆包翻译)

图片 10.png

Seedream的设计很不错,但banana更有巧思,banana胜。

示例四

A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.一张高分辨率的工作室灯光产品照,主体是一只哑光黑色的简约陶瓷咖啡杯,放置在抛光混凝土表面上。灯光采用三点柔光箱设置,旨在营造柔和、漫射的高光,消除生硬的阴影。拍摄角度为稍高的 45 度角,以展现杯子流畅的线条。画面超写实,清晰聚焦于咖啡升起的热气。

这个提示词的难度有点高,Seedream没有理解三点柔光箱设置。所以我重新强调了,不要让光源出现在图片里。

图片 11.png

双方都是高度写实场景。但seedream4.0都符合了prompt的要求,角度抬高了45°,只是光源最后也没有处理好。这一题就先放过。

示例五

A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.一幅极简构图的作品,一片纤薄的红色枫叶置于画面右下角。背景是一片开阔空旷的米白色画布,形成大片可供添加文字的留白。光线从左上角柔和漫射而来。图片为正方形构图。(豆包翻译)

图片 12.png

这张照片我仔细看了原图,banana的官图白色画布也没有出现“Soft, diffused lighting from the top left.”,在图中,光线唯一的表现方式其实只有树叶的阴影。

示例六

A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads "The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.一幅漫画单格,采用粗犷的黑色电影艺术风格,以高对比度的黑白墨水绘制。前景中,一名穿风衣的侦探站在一盏闪烁的街灯下,雨水浸湿了他的肩头。背景里,一家荒凉酒吧的霓虹灯招牌倒映在水洼中。顶部的说明框写着:“这座城市藏不住秘密。” 光线强烈,营造出戏剧化的阴郁氛围。画面为横版构图。(豆包翻译)

图片 13.png

虽然在谷歌官方的prompt提示词示例里,的确是有“lanscape”和“荒凉酒吧倒影在水中”的要求,但示例却没有出现。而且Banana的光源也远谈不上漫画中“harsh”的要求。

Banana的构图更幽深,有艺术气息,像电影的海报;但 Seedream对prompt的还原度更高,像电影里一段剧情开始的第一帧。

整体来看,nano banana 和 Seedream4.0的效果各有千秋。

Nano banana像一个很有自己头脑的艺术生,它似乎会选择性地忘记一些指令,来达成一个在它看来可能更美的构图。但Seedream4.0则会认认真真完成prompt里的所有指令,完成度明显更好。

而且这还是在英文语境下,豆包的语义理解有可能会吃亏的情况下完成的。更不用说,以上都是谷歌的官图,而我只是拿内测版自己跑的图。

在审美方面,Seedream4.0的成像效果明显更加真实,有时甚至能达到让人愣一下神,怀疑这究竟是不是AI生成的程度。而Nano banana的性能虽然强大,但依然有一种AI式的精致感,仿佛画面抹上了一层AI的亮油。

结语

很多人将nano banana称之为生图界的ChatGPT3.5时刻。

因为过去模型只能生成一些天马行空的东西,但由于缺乏一致性,很难凝聚成有效的生产力。用户花费大量的token,才能撞出几张有用的,最后生成一堆废图,费电费算力。

但Seedream4.0和nano banana这样生图模型,做到了精准指令编辑、高度特征保持和深度意图理解,不仅大大降低了普通用户使用的门槛,也会极大提升创意人士的使用效率。

你可能也看出来了:相比于生成,我在使用Seedream4.0最快乐的时候永远是改图。

因为让用户在照片上进行修改,其实永远更符合人类对空间和视觉的直觉的。

比如,我们想象一个阿拉丁神灯、一个无所谓不能的魔法师,它可以在这个世界里变出任何怪诞惊奇的玩意儿。但我们感受到“惊奇”的前提,首先是我们脚下的世界或者我们眼前的人是稳定的。有了一个注意力的锚点,再去添加和改变新的元素,这才会有魔术师的视觉效果。

因此,在生图领域,Seedream4.0和nano banana绝对是划时代的产品,肯定会引发创意行业的新革命。

而且人与AI的关系也不再是博弈,而是合作。人的创意落地门槛会更低,一个好的想法、一个转瞬即逝记录下来的细节,都可以被AI放大成一个作品。

这里唯一的区别是,从GPT3.5出现,到DeepSeek V3,我们花了两年时间。但从nano banana正式发布,到Seedream4.0上线,总计只有20天。

而且如前文所述,从许多体验和生图效果上,Seedream4.0的体验其实比nano banana还要完美。

比如,在交互上,Seedream4.0表现得更加用户友好。

这次官方内测的平台是豆包。有时用户输入一些非常简单的prompt时,豆包会主动帮助补齐一些要求,比如“保持某某其他元素保持不变”、“保持原比例”;如果你故意输入一些倒装句,豆包也会在生图时将句子改成规范的表达;如果你用模糊指向的词语描述prompt,豆包也会在转述时使用更加准确的表达。

所以在拿豆包与Seedream4.0交互时,会时刻感觉到有一个小助手在边上,帮你优化向模型传达的指令。用户不用有任何的“prompt羞耻症”,担心自己的prompt不够好,而导致效果不好——可以说是非常“vibe”了。

此外,Seedream4.0在画面生成的语言遵从能力也更强,也展现了惊人的世界理解与预测能力。

它不会放过一段冗长prompt中的任何一个内容,光线变化一定带来画面漫反射与影子的变化,有倒影就一定会出现倒影,提出了光线的方向就一定会呈现。

当 AI 真的可以See Dream了,人与梦也就更近了。

如果Dream是人人都有的,那么人人也都可以成为创意者。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3