用完豆包P图4.0，我在朋友圈就没输过

互联网

2025

09/09

14:17

给大家介绍一下，这是我家一位练习时长四年半的小狗：

图片 1.png

我一直很喜欢这张照片，因为它充分展现了家里所有人对它的娇宠。

前两天我拿到了豆包的Seedream4.0的内测码。

操作流程很简单：“打开豆包App对话框→点击【AI 生图/生视频】→点击输入框→选择上传参考图→输入文字指令”。

图片 2.png

很多人跟我说，这是中国的Nano Banana，尤其在精准指令编辑方面，它经常表现得甚至更加出色。我刚好在整理旧手机的相册，准备以除旧迎新的积极态度迎接果年春晚（不一定真买），于是干脆把这张照片扔给了Seedream4.0，并对它说：

“给它戴上好看的华丽的丰富的首饰。”

这个prompt是我瞎想的，细究起来甚至是有点语病的。我想起现在网上到处都是教人写，像小作文一样长的Nano Banana的prompt，这样去折腾内测码，其实是有点惭愧的。

然后Seedream4.0给我生成了一张毫无违和感的图。

图片 3.png

我立马就不困了，因为这个照片还原度实在是太高了。

最绝的是，这狗虽然全身是珠宝，但珠宝都不亮，所有的反光都很克制——可以说是完美地还原了北京老破小房间里的黯淡。

可不能就这么委屈了这满身的珠宝。于是我对Seedream4.0说，“将它置身于一个舞厅里。”

图片 4.png

Seedream4.0不仅选了一个跟珠宝配色很搭的场景环境色，连珠宝的饱和度和亮度也明显提高了，首饰的色泽跟随环境的变化明显更鲜艳了，毛发边缘的光线散射也发生了变化，仿佛它真的穿越到了那个舞厅里。

它的还原度如此之高，以至于Seedream4.0简直变成了一种赛博阿拉丁神灯。

养过狗的人大概都知道，狗狗的表情很丰富，而且有一个完整属于自己的世界。这件事情的副作用是，铲屎官抓拍的表情经常是悬浮于环境和场合的。但有了Seedream4.0的惊艳表现，我决定尝试给不同的小狗表情配上不同的场景。

操作步骤与第一张图的流程一样，先换一身衣服，再换背景。这样prompt的成功率很惊人，只要想好人物与场景的关系，几乎没有出现过因为特征扭曲而导致的废片。

背景替换不是一个今天才有的功能，但Seedream4.0让人惊艳的有两点：

第一，它兼具精准指令编辑能力与高度特征保持能力

你不希望它改变的地方，它都能完整保留下来。无论是照片里的水汽，还是毛发与皮肤的纹路，几乎都没有发生任何一眼可见的变化。

在图片中，你看不到任何AI油光水滑的油腻感，或者自动加噪引发的真实感，每一张图片都是自然的。

第二，在“第一”的基础上，它呈现了一定的世界观的能力

比如，在酒店当迎宾员的小狗，阳光角度近似但不同，在脖子上留下的阴影角度也随之有了细微的变化；叼着烟的牛仔，他的面部沟壑有轻微的加深；在航天飞船里，人的手臂也跟着小狗多出了一截太空服。

这些都不是简单的环境色渲染的结果，它们意味着模型已经有了很实打实的对现实理解能力，只是它很克制，但你仔细看就能发现它无处不在。

为了进一步探索模型对现实的理解和推理能力，我做了更多的尝试。

这是我从unsplash下载的一张图，图里是一块老式的俄制的老式指针式直流电流表。

我对Seedream4.0说，“将指针移动到右边。”

说实话我当时有点惊讶，它对“右”的理解很精准。在这张图里，“右”不是一个横向水平的正东的朝向，而是在20刻度线偏右一点的位置上，这与人们的日常经验是完全符合的。

我继续试验了一下文本推理能力，同样是unsplash上随机找到的一张训练图。

我告诉Seedream4.0，将球衣数字换成“梅西在美国大联盟的球衣号码”。

Seedream4.0 自己确认了准确地球衣号码，找到了球衣数字，再替换了球衣数字，甚至连球衣上的纹理都做了还原。

我在图库里刚好看到一道被故意算错了的数学题。

于是我让seedream4.0将答案修改正确。

从以上图片编辑的效果来看，Seedream4.0的文字编辑能力是很惊艳的。而在实测中，它甚至可以改变大段的文字。所以，你甚至可以在这个自然语言生成图像的工具里，直接通过自然语言修改字幕了。

甚至你可以让Seedream4.0尝试更高阶的玩法，让它直接翻译图片里的中文。它在翻译过程中，依然能保证画面和文字的质感是稳定不跳脱的，上下的字体也都维持了原来的样子。

只要你曾经用过AI生图工具，就会知道这件事情有多夸张。在此之前，只有nano banana算做到了这件事情。

测到这里，我想所有人脑子里都会自然而然地跳出，“这不就是中国的nano banana”。

所以我决定直接测一些nano banana的热门demo。

比如，将之前的狗狗照片生成“手办”图。

还有许多人关注的OOTD（今日穿搭），我想在你们看到这篇测评的时候，OOTD已经被不少同行给玩透了。所以我结合这次的图片修复功能，为OOTD功能整一些不一样的花活。

首先，我们请出学神爱因斯坦老师。这是它一张不多见的全身照。

图片 5.png

然后我们告诉Seedream将它修复。

图片 6.png

我从巴黎世家的官网找到了衣服、裤子和鞋子，于是有了一个跨越时空的穿搭。

图片 7.png

可以看到Seedream4.0对整体产品的还原度都是在线的，裤子的做旧细节和鞋子的纹路都实现了还原。

（不过Seedream对合规的审核很严格，名人穿搭不太容易过审，经常会被ban，大家可以谨慎尝试）

在文字直接生成图片方面，Nano Banana 官方前段时间曾开放了六个示例，涉及到了不同的能力侧面。我想，谷歌方面试图从这六个示例，以完整呈现其在不同场景的生图能力。而且为了辅助用户上手，Nano Banana 还贴心地给了prompt提示词和对应的生图节奏。

对于一家AI媒体来说，或许很难找到比这六个示例更能直观展现Seedream4.0和Nano Banana的能力与风格对比了。

因此我将这六个示例的prompt都导入了内容，左边是Nano Banana，右边是Seedream4.0。Seedream 4.0有时会生成多张图，考虑到Nano Banana提供的是官方示例，我也会选择多张图中自认为最好的那一张。如果生成水平差不多，我就默认选择第一张。

示例一

A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.一幅逼真的特写肖像，描绘了一位年长的日本陶艺家。他脸上布满深深的、被阳光刻蚀的皱纹，露出温暖而洞悉一切的笑容。他正仔细端详一只刚上釉的茶碗。场景设定在他那间质朴、阳光充足的工作室里。柔和的黄金时刻光线透过窗户洒入，照亮了陶土细腻的纹理。作品由 85 毫米人像镜头拍摄，背景呈现柔和的虚化效果（焦外成像）。整体氛围宁静而尽显大师风范。肖像采用竖版构图。（豆包翻译）

图片 8.png

相比于Nano Banana，Seedream4.0对“85 毫米人像镜头”的把控更好，镜头虚化效果的还原度更高，面部沟壑更自然。在前文提及的世界观方面，Seedream4.0的阳光感更好，一看就是夕阳“黄金时刻”的阳光，在房间里光漫射效果也很到位。

总体来说，Nano Banana的AI感更强，属于一眼AI图；但Seedream4.0乍一眼，真的会以为是一张照片。

不过豆包似乎对“ freshly glazed ”的理解不太一样，因此陶瓷的釉面没有上完。因此，这个示例算平手。

示例二

A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.一张可爱风格的贴纸，上面是一只开心的小熊猫，它戴着一顶小小的竹帽，正在啃一片绿色的竹叶。设计采用鲜明清晰的轮廓、简单的赛璐珞 shading 技法和鲜艳的色彩搭配。背景必须是白色的。（豆包翻译）

图片 9.png

都很可爱，个人喜欢banana的风格，但Seedream4.0似乎更符合prompt里“vibrant color palette”的设定。

示例三

Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white.为一家名为 “The Daily Grind” 的咖啡店设计一个现代简约风格的标志。文字部分采用简洁、粗体的无衬线字体。设计中需包含一个简约的、风格化的咖啡豆图标，与文字无缝融合。配色方案为黑白两色。（豆包翻译）

图片 10.png

Seedream的设计很不错，但banana更有巧思，banana胜。

示例四

A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.一张高分辨率的工作室灯光产品照，主体是一只哑光黑色的简约陶瓷咖啡杯，放置在抛光混凝土表面上。灯光采用三点柔光箱设置，旨在营造柔和、漫射的高光，消除生硬的阴影。拍摄角度为稍高的 45 度角，以展现杯子流畅的线条。画面超写实，清晰聚焦于咖啡升起的热气。

这个提示词的难度有点高，Seedream没有理解三点柔光箱设置。所以我重新强调了，不要让光源出现在图片里。

图片 11.png

双方都是高度写实场景。但seedream4.0都符合了prompt的要求，角度抬高了45°，只是光源最后也没有处理好。这一题就先放过。

示例五

A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.一幅极简构图的作品，一片纤薄的红色枫叶置于画面右下角。背景是一片开阔空旷的米白色画布，形成大片可供添加文字的留白。光线从左上角柔和漫射而来。图片为正方形构图。（豆包翻译）

图片 12.png

这张照片我仔细看了原图，banana的官图白色画布也没有出现“Soft, diffused lighting from the top left.”，在图中，光线唯一的表现方式其实只有树叶的阴影。

示例六

A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads "The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.一幅漫画单格，采用粗犷的黑色电影艺术风格，以高对比度的黑白墨水绘制。前景中，一名穿风衣的侦探站在一盏闪烁的街灯下，雨水浸湿了他的肩头。背景里，一家荒凉酒吧的霓虹灯招牌倒映在水洼中。顶部的说明框写着：“这座城市藏不住秘密。” 光线强烈，营造出戏剧化的阴郁氛围。画面为横版构图。（豆包翻译）

图片 13.png

虽然在谷歌官方的prompt提示词示例里，的确是有“lanscape”和“荒凉酒吧倒影在水中”的要求，但示例却没有出现。而且Banana的光源也远谈不上漫画中“harsh”的要求。

Banana的构图更幽深，有艺术气息，像电影的海报；但 Seedream对prompt的还原度更高，像电影里一段剧情开始的第一帧。

整体来看，nano banana 和 Seedream4.0的效果各有千秋。

Nano banana像一个很有自己头脑的艺术生，它似乎会选择性地忘记一些指令，来达成一个在它看来可能更美的构图。但Seedream4.0则会认认真真完成prompt里的所有指令，完成度明显更好。

而且这还是在英文语境下，豆包的语义理解有可能会吃亏的情况下完成的。更不用说，以上都是谷歌的官图，而我只是拿内测版自己跑的图。

在审美方面，Seedream4.0的成像效果明显更加真实，有时甚至能达到让人愣一下神，怀疑这究竟是不是AI生成的程度。而Nano banana的性能虽然强大，但依然有一种AI式的精致感，仿佛画面抹上了一层AI的亮油。

结语

很多人将nano banana称之为生图界的ChatGPT3.5时刻。

因为过去模型只能生成一些天马行空的东西，但由于缺乏一致性，很难凝聚成有效的生产力。用户花费大量的token，才能撞出几张有用的，最后生成一堆废图，费电费算力。

但Seedream4.0和nano banana这样生图模型，做到了精准指令编辑、高度特征保持和深度意图理解，不仅大大降低了普通用户使用的门槛，也会极大提升创意人士的使用效率。

你可能也看出来了：相比于生成，我在使用Seedream4.0最快乐的时候永远是改图。

因为让用户在照片上进行修改，其实永远更符合人类对空间和视觉的直觉的。

比如，我们想象一个阿拉丁神灯、一个无所谓不能的魔法师，它可以在这个世界里变出任何怪诞惊奇的玩意儿。但我们感受到“惊奇”的前提，首先是我们脚下的世界或者我们眼前的人是稳定的。有了一个注意力的锚点，再去添加和改变新的元素，这才会有魔术师的视觉效果。

因此，在生图领域，Seedream4.0和nano banana绝对是划时代的产品，肯定会引发创意行业的新革命。

而且人与AI的关系也不再是博弈，而是合作。人的创意落地门槛会更低，一个好的想法、一个转瞬即逝记录下来的细节，都可以被AI放大成一个作品。

这里唯一的区别是，从GPT3.5出现，到DeepSeek V3，我们花了两年时间。但从nano banana正式发布，到Seedream4.0上线，总计只有20天。

而且如前文所述，从许多体验和生图效果上，Seedream4.0的体验其实比nano banana还要完美。

比如，在交互上，Seedream4.0表现得更加用户友好。

这次官方内测的平台是豆包。有时用户输入一些非常简单的prompt时，豆包会主动帮助补齐一些要求，比如“保持某某其他元素保持不变”、“保持原比例”；如果你故意输入一些倒装句，豆包也会在生图时将句子改成规范的表达；如果你用模糊指向的词语描述prompt，豆包也会在转述时使用更加准确的表达。

所以在拿豆包与Seedream4.0交互时，会时刻感觉到有一个小助手在边上，帮你优化向模型传达的指令。用户不用有任何的“prompt羞耻症”，担心自己的prompt不够好，而导致效果不好——可以说是非常“vibe”了。

此外，Seedream4.0在画面生成的语言遵从能力也更强，也展现了惊人的世界理解与预测能力。

它不会放过一段冗长prompt中的任何一个内容，光线变化一定带来画面漫反射与影子的变化，有倒影就一定会出现倒影，提出了光线的方向就一定会呈现。

当 AI 真的可以See Dream了，人与梦也就更近了。

如果Dream是人人都有的，那么人人也都可以成为创意者。

THE END

广告、内容合作请点击这里寻求合作

三星

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。

用完豆包P图4.0，我在朋友圈就没输过

相关热点

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 汽车电池

关注我们