Kling O3: 基於參考的視頻生成。角色能夠保持一致。
從一個統一多模態模型,生成電影級片段,兼备角色身份鎖定、原生音訊同多鏡頭故事板。
獲全球超過 100,000 名創作者同工作室信任
Kling O3 實作展示
角色一致性敘事、原生音效場景,以及從參考圖像與文字提示生成的多片段序列。




Kling O3 — 全能鎖定模型
您的角色特徵
Kling O3(Video 3.0 Omni)是 Kling 3.0 以參照為導向的延伸版本。上傳最多 4 張角色參照圖像,模型便會建立一個能贯穿整个视频的身份特徵嵌入——即便經過鏡頭變換、光線變化與多角色場景,仍能保持穩定。
不同於標準的文字轉視頻,O3 將參考輸入、文字提示、音訊生成和視覺連鎖推理融合在單一流程中。工作室用它來製作系列作品、品牌內容,以及任何需要角色從一個鏡頭到下一個鏡頭保持外貌一致的工作流程。
Reference-to-Video (Ref2V)
上傳圖片或影片片段,以確保角色身份、服装和特徵在每個帧中保持一致。
Native audio in one pass
對白、環境音和音樂與視頻同步生成 — 無需後期音效處理。
Visual chain-of-thought
內建場景推理確保鏡頭、動作和環境之間的邏輯連續性。
每次生成最多6個鏡頭
每個分鏡設定獨特提示、時長和攝動。
Kling O3: 從參考圖像到
分鐘內生成完成場景。
三步驟使用 Kling O3 統一多模態引擎生成角色一致、音視頻同步的影片。
上傳參考圖像並創作
拖放 1–4 個角色參考圖像或參考影片。加入描述場景、攝動和音頻意向的文字提示。O3 自動建立身份嵌入。
使用正面和側面參考照片以最佳鎖定角色。
生成音視頻
O3一次過渲染視頻及同步音頻。選擇3至15秒時長,最多選6個鏡頭,並從5種以上語言中挑選對話。最終渲染前可預覽畫面。
先從5-10秒短片起步,確保質素最佳,再逐步延長。
審閱及匯出
使用原生音頻回放片段。可編輯個別鏡頭、交換參考或調整提示,無需重新生成整個序列。支援以MP4/WebM格式匯出,最高解析度1080p。
使用批次匯出一次渲染整個故事板系列。
Kling O3: V3 所有功能,
再加角色記憶。
Kling O3在Kling 3.0的電影引擎基礎上新增參考驅動生成——這些是使其成為Omni模型的關鍵功能。
角色身份鎖定
每個角色可上傳最多 4 張參考圖像。O3 會建立持久性嵌入向量,確保臉部、服裝與特徵在所有鏡頭與角度下保持一致——即使場景中包含多個角色。
角色永不偏離。
內建音頻生成
對白、環境音效與背景音樂一體生成,並自動對嘴型。支援英語、中文、日語、韓語及西班牙語。
音頻內建而非附加。
多分鏡故事板
可定義最多 6 個獨立鏡頭,每個鏡頭設定專屬提示詞、持續時間與鏡頭運動。O3 會自動維持所有剪輯間的視覺連貫性。
導演序列,不止片段。
視覺連鎖推理
O3 的內置推理引擎確保場景邏輯保持連貫 — 角色自然互動、物理效果正確無誤,鏡頭間的過渡also畫面流暢。
模型在渲染前先思考。
物理準確的動態
先進的物理模擬處理重力、平衡、變形、碰撞與慣性。物體與角色的移動具備真實世界的重量與動量。
具有真實感的動作。
多語言對話
生成超過5種語言的語音,提供美式、英式及印度英語等口音選項。可創作多人場景,每位角色說不同的語言。
環球故事,地道語音。
視訊元素引用
不单止用靜態圖——更可以上傳影片,將動作模式、表演風格或鏡頭運動融入生成過程,同時保持角色连贯性。
参考來源無界限。
靈活控制片長
每個片段可生成3至15秒,达到逐帧精度。配合多镜模式,製作更長序列亦能全程保持高質素。
片長由3秒作品到15秒故事,隨你選擇。
創作者的首選 Kling O3
六大工作流程,展示以参考內容驅動生成、並保持角色连贯性的關鍵優勢。
電影製作人
重覆角色的影集
確保主角形象在每集中保持一致。生成預視化內容時,演員、服裝和場景皆一致,無需重拍。
社交媒體
品牌角色系列
打造一個辨識度高的吉祥物或網紅頭像,在每一則帖子、短片和限時動態中維持完全一致。
廣告
多版本廣告活動
在50多個版本中,更換背景、產品和文案,同時確保代言人的臉部和服裝完全一致。
遊戲工作室
從資產生成電影級過場動畫
參考遊戲內角色模型和環境,生成一致的電影動畫和預告片,無需3D渲染。
內容工作室
大規模製作劇集內容
使用鎖定角色和場景,製作每日或每週劇集。O3的參考系統徹底消除連續性錯誤。
教育
一致的導師虛擬形象
創建一個AI導師,使其在整個課程系列中保持外觀與聲音一致,並配有原生語音解說。
創作者首選 Kling O3
追求一致性
“O3的角色鎖定功能徹底改變了我們的工作流程。我們使用同一主角拍攝10集劇集——再也不會有渲染結果導致的連續性問題。”
“原生音訊生成為我們每條影片節省數小時——唇形同步、環境音效及對白一次渲染完成,後期團隊現已幾乎無需處理音訊。”
“我們每天為同一品牌代言人生成60個廣告變體,O3 能保持其臉部、服裝及神態完全一致,而我們只需更換其他所有元素。”
“每次渲染可輸出含6個分鏡的多鏡頭故事板,讓我得以一次性生成整個場景的鏡頭,堪稱擁有一位 AI 電影攝影師。”
立即開始使用
Kling O3
鎖定角色、生成原生音頻,並從單一統一模型直接管控多鏡頭場景——全部一氣呵成。
無需信用卡。內含免費生成。
關於
Kling O3
Kling O3 (Video 3.0 Omni) 在 V3 基礎上新增參考轉視頻功能——您可以上傳角色圖片或影片片段,在多輪生成中鎖定角色身份。V3 以提示詞驅動;O3 則以參考素材驅動。O3 同時支援更高分辨率輸出,並優化了音訊生成。
上傳 1 至 4 張角色參考圖片。O3 會建立身份特徵嵌入,在不同鏡頭與拍攝角度間保留面部、服裝及特徵。同一場景中可同時處理多個角色。
O3 每次生成最多支援 6 個鏡頭,每個鏡頭擁有獨立的提示詞、時長(3 至 15 秒)及鏡位移動。模型會自動維持所有分鏡的視覺連貫性。
O3 能以英語、普通話、日語、韓語及西班牙語生成語音,並提供美式、英式及印度英語等口音選項。多角色對話場景可讓不同角色使用不同語言。
有。O3 與 V3 共享相同的基础 API 结构——只需更改模型 ID 即可。額外的選擇性參數可讓您傳入參考圖片及視頻片段。可通過官方 Kling API 或第三方供應商獲取。
標準模式輸出為 720p,專業模式輸出為 1080p。每次生成的時長範圍為 3 至 15 秒。最佳畫質範圍在 5 至 10 秒之間。
O3 在單一統流程中同時生成音訊與視頻,因此嘴型對準比後期處理方式更緊密。對於大多數使用情境效果相當理想,並會於每次更新中持續改善。
是的。所有方案均包含生成內容的商業授權。請查閱您的工作區等級以了解具體使用限制及優先支援選項。
仍有疑問? 與我們的團隊交談