キャラクター参照

ネイティブオーディオ

マルチショット（6カット）

リップシンク

4K出力

視覚的推論

Kling O3

Kling O3: 参照に基づく動画生成。キャラクター一貫性

キャラクター同一性ロック、ネイティブオーディオ、マルチショットストーリーボーディングを搭載した一つの統合マルチモーダルモデルから、シネマティックなクリップを生成します。

Kling O3を無料で試す

世界中の10万人以上のクリエイター＆スタジオに信頼されています

Ref2V参照動画生成

61生成あたりのショット数

♪内蔵音声・リップシンク

5+対応言語数

実例

Kling O3 実演

参照画像とテキストプロンプトから生成される、キャラクター一貫性のあるストーリーテリング、ネイティブ音声シーン、およびマルチショットシーケンス。

Kling O3 とは？

Kling O3 — ロック機能搭載のオムニモデル

そのままに

Kling O3（Video 3.0 Omni）は、Kling 3.0の参照駆動型拡張版です。最大4つのキャラクター参照画像をアップロードすると、モデルはビデオ全体を通じてアイデンティティ埋め込みを構築し、カメラの変更、照明の変化、マルチキャラクターシーンにも対応します。

標準的なテキストから動画生成とは異なり、O3は参照入力とテキストプロンプト、音声生成、視覚的思考連鎖を単一の統合プロセスで統合します。スタジオでは、シリーズ制作、ブランドコンテンツ、およびショット間でキャラクターの外見を一貫させるワークフローに活用されています。

参照動画生成 (Ref2V)

画像やビデオクリップをアップロードして、キャラクターの同一性、衣装、特徴を全フレームにわたって固定します。

ワンパスネイティブ音声

台詞、環境音、音楽を動画と同時に生成 — ポストプロダクションの音声パイプラインは不要です。

視覚的思考連鎖

組み込みシーン推論により、ショット間、アクション間、環境間の論理的連続性が確保されています。

1生成あたり最大6ショット

単一のレンダリング内で各カットごとに独立したプロンプト、継続時間、カメラ移動を設定できます。

仕組み

Kling O3: 参照画像から

数分で完成シーンまで。

Kling O3の統合マルチモーダルエンジンを使用して、キャラクター一貫性があり音声同期された動画を生成するための3ステップ。

参照をアップロードして構成

1～4枚のキャラクター参照画像または参照動画をドロップします。シーン、カメラ移動、音声意図を説明するテキストプロンプトを追加します。O3は自動的にアイデンティティ埋め込みを構築します。

最適なキャラクター固定には、正面と側面からの参照写真を使用してください。

音声付きで生成

O3はビデオと同期音声を単一パスでレンダリングします。3〜15秒の持続時間を選択し、最大6つのショットを選択し、ダイアログには5つ以上の言語から選択します。最終レンダリング前にフレームをプレビューできます。

最適な品質のため、最初は5〜10秒のクリップから始め、その後延長してください。

レビューとエクスポート

ネイティブ音声でクリップを再生できます。個々のショットを編集し、参照画像を交換したり、プロンプトを調整したり、シーケンス全体を再生成せずに行えます。MP4/WebM形式で最大1080pでエクスポート可能。

バッチエクスポートを使用して、ストーリーボードシリーズ全体を一度にレンダリングしてください。

機能

Kling O3: V3の全機能、

プラス character memory.

Kling O3は、Kling 3.0のシネマティックエンジン上に参照駆動生成を追加します。これがOmni modelを可能にする主要な機能です。

キャラクター同一性ロック

各キャラクターにつき最大4枚の参照画像をアップロード。O3は、すべてのショットとカメラアングルで顔、衣装、特徴を維持する持続的なエンベディングを構築します。— シーン内に複数のキャラクターがいても同様。

キャラクターはぶれません。

内蔵オーディオ生成

対話、環境音、背景音楽を自動リップシンク付きで一度に生成。英語、中国語、日本語、韓国語、スペイン語に対応。

オーディオは内蔵、後付けではありません。

マルチショットストーリーボーディング

最大6つの個別ショットを定義。各ショットに独自のプロンプト、持続時間、カメラ移動を設定。O3はすべてのカット間で視覚的一貫性を自動的に維持。

シーケンスを演出、クリップだけではない。

視覚的思考連鎖

O3の組み込み推論エンジンにより、シーンの論理は一貫。キャラクターが自然に相互作用し、物理演算が正確に行われ、ショット間の切り替えも視覚的にスムーズです。

思考してからレンダリング。

物理学精度の高い動き

高度な物理演算により、重力、バランス、変形、衝突、慣性をリアルに再現。オブジェクトやキャラクターは、実世界と同じ重量と運動量で動きます。

リアルな動き。

多言語対話

5言語以上に対応した音声生成で、アメリカ、イギリス、インド英語などのアクセント選択肢付き。各キャラクターが別の言語を話す複数人シーンも作成可能です。

世界中の物語を、母語話者の声で。

動画要素の参照

静的画像参照を超えて — 動きのパターン、演技スタイル、カメラの動きをビデオクリップとしてアップロードし、キャラクターの一貫性を保ちながら生成に活かせます。

あらゆるビジュアルを参照可能。

時間設定の柔軟性

各クリップをフレーム単位の精度で3〜15秒生成。マルチショットモードと組み合わせて、品質を維持したまま延長シーケンスを作成できます。

3秒のインパクトから15秒のストーリーへ

ユースケース

クリエイターが選ぶ Kling O3

参照駆動生成とキャラクター一貫性が差を生む6つのワークフロー。

映画制作者

繰り返し登場するキャラクターのシリーズ

エピソード全体で主人公の外見を固定。俳優、衣装、設定を一貫させ、再撮影なしでプレビズを生成。

ソーシャルメディア

ブランドキャラクターシリーズ

すべての投稿、リール、ストーリーで同じ、なじみのあるマスコットまたはインフルエンサーアバターを構築。

複数バリアント広告キャンペーン

背景、商品、コピーを入れ替え、スポークスパーソンの顔と衣装を50以上のバリアントで完全に一貫させます。

ゲームスタジオ

ゲームアセットからのシネマティックカットシーン

ゲーム内のキャラクターモデルと環境を参照し、3Dレンダリングなしで一貫したシネマティックと予告編を生成。

コンテンツスタジオ

大規模なエピソードコンテンツ制作

キャラクターと設定を固定して、毎日または毎週エピソードを制作。O3の参照システムにより、継続性のエラーを解消。

教育

一貫した講師アバター

講座シリーズ全体で同じ見た目と音声のAI講師を作成。ネイティブ対応のナレーション音声も利用可能。

お客様の声

クリエイターが選ぶ Kling O3

を、その一貫性のために。

“O3のキャラクター固定機能がワークフローを根本から変えました。同じ主人公による10エピソードシリーズを制作。レンダリング間の継続性の悩みから解放されました。”

David Park

アニメーションディレクター、ストーリーフォージ・スタジオ

“ネイティブ音声生成機能により、動画1本あたりの時間を大幅に短縮。リップシンク、環境音、セリフが全て1回のレンダリングで出力され、ポストプロダクションチームのオーディオ処理 workload がほぼなくなりました。”

ニーナ・ヴァスケス

制作部長、ソニックウェーブ・メディア

“同じブランドアンバサダーで1日60種類の広告バリエーションを制作。O3により、顔や衣装、仕草を固定したまま、その他の要素は自在に差し替えられます。”

トム・ハリール

パフォーマンスリード、カタリスト・エイジェンシー

“1回の生成で6カットを含むマルチショット絵コンテを制作可能。まるでAI撮影監督がいるかのように、一連のシーンを演出できます。”

リナ・オシマ

インディーズ映画制作者＆ユーチューバー

～で作成を始める

Kling O3

キャラクターを固定し、ネイティブ音声を生成し、複数ショットシーンを操作 — すべて一つの統合モデルから。

クレジットカード不要。無料生成回数付き。

Kling O3を無料で試す料金プランを見る

10万人以上のクリエイターがKlingを利用中·平均クリエイター評価 4.9/5·商用利用可能·世界規模のサポートとAPIアクセス

よくある質問

全般

Kling O3

Kling O3（Video 3.0 Omni）はV3に「Reference-to-Video」機能を追加しました。キャラクター画像や動画クリップをアップロードすることで、各生成間でキャラクターの同一性を一貫して維持できます。V3がプロンプト駆動であるのに対し、O3は参照駆動です。O3はより高解像度出力をサポートし、音声生成も最適化されています。

1～4枚の参照画像をアップロードすると、O3は顔、衣装、特徴をすべてのショットとカメラアングルにわたり維持するID埋め込みを構築します。同じシーンで複数のキャラクターを同時に処理可能です。

O3は1回の生成で最大6ショットまで生成可能です。各ショットは独自のプロンプト、持続時間（3～15秒）、カメラ移動に対応しており、モデルはすべてのカット間で自動的にビジュアル一貫性を維持します。

O3は、英語、中国語、日本語、韓国語、スペイン語の音声を生成します。アクセントオプションには、アメリカ、イギリス、インド英語が含まれます。複数のキャラクターが登場する対話シーンでは、キャラクターごとに異なる言語を使用できます。

はい。O3はV3と同じベースAPI構造を共有しており、モデルIDを変更するのみです。追加のオプションパラメータにより、参照画像やビデオクリップを渡すことができます。公式Kling APIおよびサードパーティプロバイダーから利用可能です。

Standardモードでは720p、Proモードでは1080pで出力されます。生成時間は1回あたり3〜15秒です。最適な品質は5〜10秒の範囲です。

O3は音声と動画を一つの統一プロセスで生成するため、ポスト処理方式よりも高精度なリップシンクを実現します。ほとんどのユースケースで高い精度を発揮し、アップデートごとに継続的な改善が図られています。

はい。プランには生成コンテンツの商用ライセンスが付属しています。具体的な使用制限や優先サポートオプションについては、お客様のワークスペースのレベルをご確認ください。

さらに質問がありますか？チームに問い合わせる