2026/04/06

Kling 3.0 提示词指南:更稳定地做出电影感结果

这篇 Kling 3.0 提示词指南讲清楚如何写 T2V、I2V 和多镜头提示词,包括镜头语言、结构模板,以及最容易拉低输出质量的常见错误。

Kling 3.0 提示词指南:更稳定地做出电影感结果

Kling 3.0 是目前能力很强的 AI 视频模型之一,也是对提示词结构很敏感的一类模型。提示词写得含糊,和写得有镜头逻辑,差别不是细微调整,而是视频能不能直接用、要不要反复重生三次的差别。

这篇 Kling 3.0 提示词指南会讲清楚三个问题:Kling 3.0 到底怎么理解提示词、什么样的结构更稳定,以及社区里哪些写法已经被反复验证过。

Kling 3.0 提示词指南配图:创作桌面上的提示词笔记与 AI 视频画面

Kling 3.0 如何理解你的提示词

Kling 3.0 不是简单地从文本里抓几个视觉关键词,再拼成一段画面。它更像是在解析一个场景:主体是谁、主体之间是什么空间关系、镜头在哪里、动作怎么发生、时间上怎么推进。

所以,Kling 3.0 提示词更像导演写给镜头组的 shot note,而不是一串形容词。模型实际在回答的是四个问题:这是谁或什么、现在发生了什么、镜头在哪里、整个场景如何运动。你的提示词如果把这四件事讲明白,输出通常会更受控;如果留白太多,模型就会自己补全,而那个默认答案未必是你想要的。

社区里有个很有参考价值的观察:为 Kling 3.0 写得比较成熟的提示词,往往也能迁移到 Seedance 2.0,反过来也成立。真正能跨模型复用的,不是某几个花哨词,而是这种按场景层级组织信息的写法。

四段式提示词结构

一条稳定的 Kling 3.0 提示词,通常都能拆成四个部分:

主体块:谁或什么,以及它当前的外观、状态
动作块:正在发生什么,动作节奏如何
镜头块:机位、景别、运镜方式
风格块:光线、质感、审美参考

Kling 3.0 提示词结构图:主体、动作、镜头、风格四个模块

并不是每次都必须四块写满,但你少写一块,就等于把那一维交给模型自己猜。

Weak: A woman walking in rain

Strong: A young woman in a dark wool coat walks slowly through a rain-slicked city street at night — medium tracking shot following from behind at eye level, neon signs reflected in puddles, shallow depth of field, cinematic color grading, muted tones with warm highlights

第二条并不是“堆了更多词”,而是把模型原本要自己猜的事情提前说清楚了:人物距离、运动节奏、镜头行为、灯光质感,以及整体画面处理。

写文生视频提示词时要抓住什么

T2V 最吃提示词质量,因为你是从零开始生成,模型几乎完全依赖你的文字。

一定要把运动方向和运动气质写出来。 Kling 3.0 对镜头语言的理解比较细。真正有用的,不只是“镜头在动”,而是它怎么动、动得快还是慢、那种运动带来的情绪是什么。

  • slowly pushes in 对比 cuts quickly to
  • tracking smoothly from behind 对比 handheld, urgent
  • crane shot rising to reveal 对比 locked wide establishing shot

在 Kling 3.0 里比较稳定的摄影术语:

  • Push in / pull out / dolly
  • Tracking shot / follow cam
  • Rack focus(最好写清 near-to-far 或 far-to-near)
  • Low angle / high angle / eye level
  • Crane up / overhead descend
  • Handheld(通常会带出更急促、更纪实的感觉)

社区里一个常被提到的产品视频示例:

High-end commercial photography style AI video. A premium NYC burger with perfect grill marks, melted cheese, toasted brioche bun on a warm golden gradient background. Camera slowly circles the burger at a low angle, revealing texture and steam. Cinematic lighting, shallow focus on the burger, ultra-realistic material rendering, 6 seconds.

这类提示词之所以有效,不在于句子多长,而在于它把镜头旋转、材质表现、蒸汽细节和灯光逻辑都压进去了。这样一来,Kling 3.0 更容易在完整运镜里保持物理和质感的一致性。

写 15 秒多镜头提示词时,别把它当成一段单场景描述

多镜头是 Kling 3.0 最有辨识度的能力之一。写法上不要把它当成“更长的一句提示词”,而要当成 shot list。

建议结构:

Shot 1: [Description + camera + duration hint]
Shot 2: [Description + camera + transition logic]
Shot 3: [Description + camera + resolution]

示例:

Shot 1: Extreme close-up of a boxer's wrapped hands taping up, tight macro detail, warm gym lighting, 3 seconds. Cut to Shot 2: Medium shot, the boxer shadowboxing in an empty gym, tracking camera following the movement, motivational energy, 5 seconds. Cut to Shot 3: Wide shot from ringside, the boxer landing a combination on a heavy bag, camera slowly pushes in as the final punch lands, dramatic lighting, 7 seconds.

Kling 3.0 会尽量在镜头之间维持角色外观、场景逻辑和光线方向的一致性。转场逻辑写得越明确,结果通常越干净,后面也越不容易出现角色“变脸”或空间突然跳掉的问题。

图生视频提示词该怎么写

I2V 的逻辑和 T2V 不一样。你给了参考图以后,Kling 3.0 已经拿到了主体和场景的静态信息,提示词的重点就不再是“画面里有什么”,而是“接下来哪里会动、怎么动”。

I2V 的常用公式: [What moves] + [Camera behavior] + [Pacing and quality] + [Environmental changes if any]

**最常见的误区:**把图里已经能看到的东西重新描述一遍。那会浪费提示词预算,也会让模型收到重复、甚至互相打架的信息。既然首帧已经锁住,提示词就该集中写运动和变化。

社区示例(Midjourney → Kling 3.0 I2V):

图像内容:一位扎高马尾的女性,工作室人像光。

I2V prompt:

She slowly smiles and turns her gaze to look at something just out of view, subtle hair movement, camera holds steady, smooth and natural movement, 4 seconds.

这类提示词好用,是因为它只说变化,不重写静态画面。模型会把重点放在表情、视线和头发的小幅运动上,动作自然得多。

另一个社区示例(插画风风筝):

图像内容:一本儿童绘本摊开在桌上,书页里画着一只风筝,一只真实的手正捏着风筝线。

I2V prompt:

The hand tugs the string gently. The illustrated kite lifts off the page and becomes three-dimensional, rising into the air above the book, tilting and dipping realistically as if caught by wind. The tail ribbons flutter with lifelike motion. Camera tilts upward to follow the kite's rise, smooth motion, 6 seconds.

这条提示词的关键在于,它没有停留在“风筝飞起来”这种笼统描述,而是把二维插画转成三维实体这件事拆开讲,让模型知道应该怎样处理这个物理过渡。

在 Kling 3.0 里比较好用的镜头语言

Kling 3.0 对专业摄影术语的理解相对稳定。下面这些词,通常都能比较直接地映射成你预期的画面:

TermWhat it produces
push in / dolly in镜头向主体推进
pull out / dolly out镜头从主体拉开
tracking shot镜头跟随移动主体
rack focus焦点在前景和背景之间切换
crane up镜头垂直上升,常用于揭示场景
handheld带一点晃动的纪实或紧张感
locked wide静止的广角建立镜头
low angle低机位,让主体更有压迫感或力量感
bird's eye / overhead俯拍、顶视角

最常见的提示词错误

把提示词写成标签堆。
"cinematic, dramatic, 4K, award-winning, professional" 这种并排堆形容词的写法,看起来信息很多,实际没有把场景讲清楚。Kling 3.0 更需要连贯的场景描述,而不是关键词列表。

完全不写镜头。
不写镜头并不代表“交给模型自由发挥”,而是把最关键的一维控制权直接放掉。很多时候,只要补上一句镜头距离或运镜方式,结果就会稳定很多。

在 I2V 里重复描述参考图。
既然图里的人物、背景、服装已经固定,就不要再浪费篇幅重写这些静态元素。把提示词预算留给动作、节奏和环境变化。

期待模糊提示词也能直接出电影感。
Kling 3.0 的上限确实高,但它回报的是结构化输入。想要更像导演调度出来的画面,提示词本身就得先像导演在写。

从别的模型提示词迁移过来,可以怎么改

如果你以前已经在别的工作流里写出过稳定提示词,不需要从头重来。Kling 3.0 和 Seedance 2.0、Cinema Studio 3.0 这类场景级提示词体系有不少共通点,很多旧提示词可以直接拿来试。

更实际的做法是:先保留原来的主体和动作结构,再把镜头语言替换成 Kling 3.0 更容易理解的词,比如 tracking shot、push in、low angle、rack focus 这一类。通常不需要大翻修,重点只是把镜头调度讲得更清楚。


直接在 kling3.pro 里测试你的 Kling 3.0 提示词,会比只看范例更快建立手感。

新闻简报

加入社区

订阅我们的新闻简报,获取最新消息与动态