图片模型使用简报
对比 NotebookLM 与 Nano Banana Pro 的图片能力:PPT 生成、修图(增删/光影)、平面设计,以及“推理模型→图片模型”的 prompt 工作流。
当代 AI 摄影,由 Nano Banana Pro 又掀起了一波热潮。无论国内的什么模型如何追赶,都无法达到 Banana Pro 的功能和表现。本文试图分析,各种图片模型的表现、差异。
概览
- NotebookLM: 能快速把笔记整理成 PPT,整体审美在线,但多页的版式衔接与元素摆放仍不稳定。
- Nano Banana Pro: 在文字、图层与局部编辑(增删、光影、平面设计)上接近「SOTA 级别」体验。
- 推理 + 生图: 用推理模型生成更结构化的提示词,再交给图片模型执行;但实践里“Prompt 工程”往往比“推理”更关键。
NotebookLM:从笔记到 PPT
Nano Banana Pro 推出之后,带来了一系列衍生产品,NotebookLM 就是其中之一。
目前,NotebookLM 是可以免费使用的,它可以帮我们生成 PPT,根据笔记做深度调研等工作。具体做出来的 PPT 效果如何,请看以下案例:

图:Home_Intelligence_Evolved(NotebookLM 生成)
这是完全由 NotebookLM 生成的图片,颜色风格统一,审美也还算过关,这还是没怎么写提示词的情况。
现在让我们加上由 LLM 生成的结构化提示词和风格属性提示词,再来生成一个 PPT。

图:操作界面

明显可以发现风格更加统一了。但是其也有一定的问题:图是乱摆的,连续的页面风格衔接没有做到很好,这可能是 ctx 太长带来的负影响,但是文字方面,英文的输出无可挑剔。
再配合 Codia AI,就可以将 PDF 完全转化为 PPT,可以更改文字。但可惜 20 刀一个月,实在太贵了。新人会送 5 个额度,但是一个 slides 需要 20 张左右,可能需要批量 4 个邮箱才行。

至此,我们就获得了可以灵活编辑文字的 PPT 了。
Nano Banana Pro:修图与平面设计
众所周知,Banana Pro 的性能是 SOTA 级别的,尤其是在文字处理方面。
TapNow:新人免费领 200 点数,大约可以生成 20 张 Nano Banana Pro 的图片(仅记录体验,不构成推荐)。
添加内容
案例:添加圣诞帽
在这个案例中,可以看到不同模型的差异。

删除内容
光影修改
平面设计
6 年前觉得自己 Photoshop 水平还行,能去接接小单的水平(虽然没赚到钱),但是现在完全不够。前几天觉得自己博客的几个拿 AI 做的封面太丑了,不仅丑,噪点多,文件体积不经济。就拿 Banana Pro 做了一个。

于是就有了这个。但还是得手打文字进去。于是开始研究 PS 如何做出好看的文字效果,但是怎么做都只会用“渐变叠加”,“外发光”等效果。于是让 Banana Pro 给我生成了一个,效果如下:

吓到我了,这个文字效果我想 100 年都想不出来怎么做出来。思考了很久,感觉这种效果靠单纯的涂层 fx 做不出来:能想到的是用路径 + 多层描边/斜面与浮雕来接近,但细节很难完全复刻。
外层发光是我没做,内层比起那个就太潦草了,完全没思路。(没思路其实可以问问Gemini)
于是我想,这些细节可不可以放到之前做过的图片上。我就拿年初做的封面试了一下,

这张图我觉得缺少一些逻辑,没有阴影或者发光的塑造,导致缺少层次。

这几张效果都不错,我放大看了细节,这个效果是真无敌。对图层的处理非常到位,在原图改动不多的条件下,实现了细节的添加。另外发现一个特性,Banana 在实现扣这文字的时候,反而是改成黑色背景效果更好,而不是将原图原封不动地移植过来,这点让我感到比较反常。
“推理 + 生图”:让推理模型写 Prompt
这是一个小技巧:先让推理模型把需求变成结构化的“设计说明”,再把设计说明喂给图片模型执行(尤其适合在“编辑已有图片”的场景里减少跑偏)。
推理模型 Prompt(生成设计说明)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
You are an expert visual director and prompt engineer for text-to-image models.
Your job:
1) Carefully READ the user brief.
2) REASON step by step about:
- Narrative intent & key message.
- Main subjects (who / what), their attributes and relationships.
- Layout & composition (camera angle, shot type, positions, depth).
- Lighting & atmosphere (time of day, contrast, mood).
- Color & style (photorealistic / illustration / 3D / flat, etc.).
- Text elements (titles, labels) if needed.
- Constraints: aspect ratio, level of realism, forbidden elements.
3) Then CONVERT your reasoning into:
(A) A short structured design spec.
(B) ONE single, compact text prompt suitable for a generic text-to-image model.
Output format MUST be:
[THINKING]
- Goal: ...
- Key subjects: ...
- Layout & camera: ...
- Lighting & atmosphere: ...
- Style & details: ...
- Constraints: ...
[FINAL_PROMPT]
<one single English sentence or paragraph, <= 400 characters, no line breaks>
Rules:
- Use clear, concrete visual language (e.g. “wide-angle shot”, “soft rim light”, “over-the-shoulder view”).
- Avoid vague words like “nice”, “cool”, “beautiful” – be specific instead.
- Prefer neutral, model-friendly wording; avoid brand names unless explicitly requested.
- For photorealism, explicitly say “highly detailed, photorealistic, 8k, realistic lighting”.
- If user writes in Chinese, you may THINK in Chinese but the [FINAL_PROMPT] must be in English unless the user explicitly requests otherwise.
User brief:
{在这里粘贴你的中文需求}
图片模型 Prompt(执行编辑/生图)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
BASE IMAGE:
(you have been given a base image; use it as the starting point)
INSTRUCTIONS:
- Use the BASE IMAGE as the main layout and keep the key subjects,
poses and positions recognizable.
- Only change what is explicitly requested; keep everything else similar
to the original.
- Apply the following design description on top of the BASE IMAGE:
[DESIGN_DESCRIPTION]
{FINAL_PROMPT_FROM_REASONING_MODEL}
[EDIT_GOALS]
- Preserve subject identity and main composition.
- Apply the described lighting, colors, and visual style to the existing scene.
- Add or remove elements only when they are clearly mentioned in the description.
- Do not crop heavily or change aspect ratio unless requested.
[STYLE]
highly detailed, clean rendering, consistent with the base image structure
[NEGATIVE]
blurry, low resolution, artifacts, distorted anatomy, unwanted text, watermark, logo
Test 1:钟楼 + 圣诞树 + 烟花



下面是两份推理模型产出的提示词(节选),用于对比“更偏整体布局”与“更偏严格遵守需求”的差异:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
[GPT-5.2 Thinking]
- Goal: 在保留钟楼主体的前提下,创造一个具有节日幻想感的圣诞主题场景,强调“内部+外部夜空”的戏剧对比与创意氛围。
- Key subjects: 石质钟楼(主体);钟楼内部可见的多棵圣诞树(灯饰、装饰球、星星);背景夜空中的烟花。
- Layout & camera: 低角度仰拍钟楼,保持原有立面构图;通过拱形窗洞看到内部圣诞树;烟花位于塔楼后方天空,形成层次。
- Lighting & atmosphere: 傍晚到夜晚过渡;钟楼外部保留暖色夕阳/夜景光,内部圣诞树发出温暖金色灯光;烟花提供高对比冷暖光。
- Style & details: 高度写实但带轻微幻想感;石材纹理清晰,圣诞灯微微光晕;烟花色彩丰富但不遮挡主体。
- Constraints: 写实为主、创意增强;无文字;纵向构图;避免卡通风格。
[FINAL_PROMPT]
A low-angle, highly detailed photorealistic view of a historic stone clock tower at dusk, with several illuminated Christmas trees glowing inside the open arches, warm golden lights spilling out, while colorful fireworks burst in the deep blue night sky behind the tower, cinematic lighting, festive yet elegant, realistic textures, creative holiday atmosphere, 8k realism
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
[Gemini]
- Goal: Create a festive, creative version of the uploaded clock tower image.
- Key subjects: The stone clock tower (Campanile style), Christmas trees, fireworks.
- Layout & camera: Low-angle shot looking up, similar to the original photo, emphasizing the height and the belfry.
- Lighting & atmosphere: Warm golden-hour sunlight on the tower contrasting with a deep blue twilight sky to make the fireworks and tree lights pop. Magical and celebratory mood.
- Style & details: Photorealistic, high detail, cinematic.
- Specific additions:
- **Inside:** Decorated Christmas trees visible through the open arched windows (belfry area).
- **Background:** Vibrant fireworks exploding in the sky.
[FINAL_PROMPT]
A majestic stone clock tower viewed from a low angle, bathed in warm golden sunset light. Inside the open arched belfry windows near the top, illuminated Christmas trees are visible, glowing with festive lights. The deep blue twilight sky behind the tower is filled with brilliant, colorful fireworks exploding around the spire. Photorealistic, cinematic composition, magical holiday atmosphere, highly detailed, 8k.
这时候可以发现,GPT 推理过程中,其风格与 Gemini 的区别不小。GPT 考虑的比较周到,将建筑的光照改为了夜晚,而原生的 Banana 与 Gemini 的推理,都没有更改建筑的光影,导致看起来像是在傍晚放烟花,不是很和谐。结论大概就是 GPT 更加注重整体的布局,会考虑用户没有考虑到的内容,而 Gemini 会严格遵守用户的要求。(或许间接暴露我的 Prompt 写的不是很好)
Test 2:平面设计场景
对于上面提到的平面设计的第二个案例进行尝试。使用 GPT 5.2 Thinking 进行推理。推理之后分别使用 Nano Banana (Pro) 进行生图测试。

到这我就发现事情没这么简单了,效果相比于 Nano Banana Pro 自行发挥大打折扣,缺少很多想象力的发挥。并且在使用普通 Banana 处理图片的时候,效果非常差,甚至有图像错位的情况,而 Banana Pro 的逻辑要好很多。
我觉得本质上 Prompt 工程大于推理。Banana Pro 真正强大的地方在于创意。很遗憾,以我现在的知识储备还不是很能想到怎么将普通的 Banana 调成 Banana Pro 的样子:这个 idea 暂且放弃。
小结
- NotebookLM 适合“快速出稿”,但想要“可控且稳定的版式”,仍需要额外工作流(提示词 + 后处理/编辑)。
- Banana Pro 的优势不仅是“清晰”,更是对文字/图层与局部编辑的可靠性,以及创意补全能力。
- 推理可以帮你把需求写得更完整,但最终效果高度依赖“你到底让模型做什么”(也就是 Prompt 本身)。