Kling 3.0 提示词指南：更稳定地做出电影感结果

Kling 3.0 是目前能力很强的 AI 视频模型之一，也是对提示词结构很敏感的一类模型。提示词写得含糊，和写得有镜头逻辑，差别不是细微调整，而是视频能不能直接用、要不要反复重生三次的差别。

这篇 Kling 3.0 提示词指南会讲清楚三个问题：Kling 3.0 到底怎么理解提示词、什么样的结构更稳定，以及社区里哪些写法已经被反复验证过。

Kling 3.0 提示词指南配图：创作桌面上的提示词笔记与 AI 视频画面

Kling 3.0 如何理解你的提示词

Kling 3.0 不是简单地从文本里抓几个视觉关键词，再拼成一段画面。它更像是在解析一个场景：主体是谁、主体之间是什么空间关系、镜头在哪里、动作怎么发生、时间上怎么推进。

所以，Kling 3.0 提示词更像导演写给镜头组的 shot note，而不是一串形容词。模型实际在回答的是四个问题：这是谁或什么、现在发生了什么、镜头在哪里、整个场景如何运动。你的提示词如果把这四件事讲明白，输出通常会更受控；如果留白太多，模型就会自己补全，而那个默认答案未必是你想要的。

社区里有个很有参考价值的观察：为 Kling 3.0 写得比较成熟的提示词，往往也能迁移到 Seedance 2.0，反过来也成立。真正能跨模型复用的，不是某几个花哨词，而是这种按场景层级组织信息的写法。

四段式提示词结构

一条稳定的 Kling 3.0 提示词，通常都能拆成四个部分：

主体块：谁或什么，以及它当前的外观、状态
动作块：正在发生什么，动作节奏如何
镜头块：机位、景别、运镜方式
风格块：光线、质感、审美参考

Kling 3.0 提示词结构图：主体、动作、镜头、风格四个模块

并不是每次都必须四块写满，但你少写一块，就等于把那一维交给模型自己猜。

Weak: A woman walking in rain

Strong: A young woman in a dark wool coat walks slowly through a rain-slicked city street at night — medium tracking shot following from behind at eye level, neon signs reflected in puddles, shallow depth of field, cinematic color grading, muted tones with warm highlights

第二条并不是“堆了更多词”，而是把模型原本要自己猜的事情提前说清楚了：人物距离、运动节奏、镜头行为、灯光质感，以及整体画面处理。

写文生视频提示词时要抓住什么

T2V 最吃提示词质量，因为你是从零开始生成，模型几乎完全依赖你的文字。

一定要把运动方向和运动气质写出来。 Kling 3.0 对镜头语言的理解比较细。真正有用的，不只是“镜头在动”，而是它怎么动、动得快还是慢、那种运动带来的情绪是什么。

slowly pushes in 对比 cuts quickly to
tracking smoothly from behind 对比 handheld, urgent
crane shot rising to reveal 对比 locked wide establishing shot

在 Kling 3.0 里比较稳定的摄影术语：

Push in / pull out / dolly
Tracking shot / follow cam
Rack focus（最好写清 near-to-far 或 far-to-near）
Low angle / high angle / eye level
Crane up / overhead descend
Handheld（通常会带出更急促、更纪实的感觉）

社区里一个常被提到的产品视频示例：

High-end commercial photography style AI video. A premium NYC burger with perfect grill marks, melted cheese, toasted brioche bun on a warm golden gradient background. Camera slowly circles the burger at a low angle, revealing texture and steam. Cinematic lighting, shallow focus on the burger, ultra-realistic material rendering, 6 seconds.

这类提示词之所以有效，不在于句子多长，而在于它把镜头旋转、材质表现、蒸汽细节和灯光逻辑都压进去了。这样一来，Kling 3.0 更容易在完整运镜里保持物理和质感的一致性。

写 15 秒多镜头提示词时，别把它当成一段单场景描述

多镜头是 Kling 3.0 最有辨识度的能力之一。写法上不要把它当成“更长的一句提示词”，而要当成 shot list。

建议结构：

Shot 1: [Description + camera + duration hint]
Shot 2: [Description + camera + transition logic]
Shot 3: [Description + camera + resolution]

示例：

Shot 1: Extreme close-up of a boxer's wrapped hands taping up, tight macro detail, warm gym lighting, 3 seconds. Cut to Shot 2: Medium shot, the boxer shadowboxing in an empty gym, tracking camera following the movement, motivational energy, 5 seconds. Cut to Shot 3: Wide shot from ringside, the boxer landing a combination on a heavy bag, camera slowly pushes in as the final punch lands, dramatic lighting, 7 seconds.

Kling 3.0 会尽量在镜头之间维持角色外观、场景逻辑和光线方向的一致性。转场逻辑写得越明确，结果通常越干净，后面也越不容易出现角色“变脸”或空间突然跳掉的问题。

图生视频提示词该怎么写

I2V 的逻辑和 T2V 不一样。你给了参考图以后，Kling 3.0 已经拿到了主体和场景的静态信息，提示词的重点就不再是“画面里有什么”，而是“接下来哪里会动、怎么动”。

I2V 的常用公式： [What moves] + [Camera behavior] + [Pacing and quality] + [Environmental changes if any]

**最常见的误区：**把图里已经能看到的东西重新描述一遍。那会浪费提示词预算，也会让模型收到重复、甚至互相打架的信息。既然首帧已经锁住，提示词就该集中写运动和变化。

社区示例（Midjourney → Kling 3.0 I2V）：

图像内容：一位扎高马尾的女性，工作室人像光。

I2V prompt:

She slowly smiles and turns her gaze to look at something just out of view, subtle hair movement, camera holds steady, smooth and natural movement, 4 seconds.

这类提示词好用，是因为它只说变化，不重写静态画面。模型会把重点放在表情、视线和头发的小幅运动上，动作自然得多。

另一个社区示例（插画风风筝）：

图像内容：一本儿童绘本摊开在桌上，书页里画着一只风筝，一只真实的手正捏着风筝线。

I2V prompt:

The hand tugs the string gently. The illustrated kite lifts off the page and becomes three-dimensional, rising into the air above the book, tilting and dipping realistically as if caught by wind. The tail ribbons flutter with lifelike motion. Camera tilts upward to follow the kite's rise, smooth motion, 6 seconds.

这条提示词的关键在于，它没有停留在“风筝飞起来”这种笼统描述，而是把二维插画转成三维实体这件事拆开讲，让模型知道应该怎样处理这个物理过渡。

在 Kling 3.0 里比较好用的镜头语言

Kling 3.0 对专业摄影术语的理解相对稳定。下面这些词，通常都能比较直接地映射成你预期的画面：

Term	What it produces
`push in` / `dolly in`	镜头向主体推进
`pull out` / `dolly out`	镜头从主体拉开
`tracking shot`	镜头跟随移动主体
`rack focus`	焦点在前景和背景之间切换
`crane up`	镜头垂直上升，常用于揭示场景
`handheld`	带一点晃动的纪实或紧张感
`locked wide`	静止的广角建立镜头
`low angle`	低机位，让主体更有压迫感或力量感
`bird's eye` / `overhead`	俯拍、顶视角