Kling O3: geração de vídeo orientada por referências.Personagens consistentes.
Gere clipes cinematográficos com bloqueio de identidade de personagens, áudio nativo e storyboard multi-shot — tudo a partir de um modelo multimodal unificado.
Confiado por mais de 100.000 criadores e estúdios em todo o mundo
Kling O3 em ação
Narrativa com personagens consistentes, cenas com áudio nativo e sequências de múltiplos clipes geradas a partir de imagens de referência e prompts de texto.




Kling O3 — o modelo Omni que fixa
seus personagens no lugar.
Kling O3 (Video 3.0 Omni) é a extensão baseada em referências do Kling 3.0. Faça upload de até 4 imagens de referência de personagens, e o modelo cria um embedding de identidade que se mantém em todo o seu vídeo — mesmo com mudanças de câmera, iluminação e cenas com vários personagens.
Diferente do texto-para-vídeo padrão, o O3 combina entradas de referência com prompts de texto, geração de áudio e raciocínio visual em cadeia em uma única etapa. Estúdios o utilizam para produção de séries, conteúdo de marca e qualquer fluxo de trabalho onde os personagens devem manter a mesma aparência em todos os planos.
Referência-para-Vídeo (Ref2V)
Faça upload de imagens ou clipes de vídeo para ancorar a identidade, vestuário e características do personagem em todos os quadros.
Áudio nativo em uma etapa
Diálogo, som ambiente e música gerados simultaneamente com o vídeo — sem pipeline de áudio de pós-produção.
Raciocínio visual em cadeia
O raciocínio interno da cena garante continuidade lógica entre planos, ações e ambientes.
Até 6 planos por geração
Defina prompts, durações e movimentos de câmera separados para cada corte em uma única renderização.
Kling O3: de imagens de referência até
cenas finalizadas em minutos.
Três passos para gerar vídeo com personagens consistentes e sincronizado com áudio usando o motor multimodal unificado do Kling O3.
Carregar referências e compor
Arraste e solte de 1 a 4 imagens de referência de personagem ou um vídeo de referência. Adicione seu prompt de texto descrevendo a cena, movimento de câmera e intenção de áudio. O3 gera embeddings de identidade automaticamente.
Use fotos de referência frontais e de perfil para obter o melhor bloqueio do personagem.
Gerar com áudio
O3 renderiza vídeo e áudio sincronizado em uma única passagem. Escolha a duração de 3 a 15 segundos, selecione até 6 planos e escolha entre mais de 5 idiomas para o diálogo. Visualize os quadros antes da renderização final.
Comece com clipes de 5 a 10 segundos para uma qualidade ideal e depois estenda.
Revisar e exportar
Reproduza seu clipe com áudio nativo. Edite planos individuais, troque referências ou ajuste prompts sem ter que regenerar toda a sequência. Exporte em MP4/WebM até 1080p.
Use a exportação em lote para renderizar toda uma série de storyboard de uma vez.
Kling O3: tudo que o V3 faz,
e mais memória de personagem.
Kling O3 adiciona geração baseada em referências ao motor cinematográfico do Kling 3.0 — os recursos-chave que o tornam o modelo Omni.
Preservação de identidade do personagem
Carregue até 4 imagens de referência por personagem. O3 cria embeddings persistentes que mantêm o rosto, a roupa e as características em todos os planos e ângulos — mesmo com vários personagens em cena.
Seus personagens mantêm consistência.
Geração nativa de áudio
Diálogos, sons ambientais e trilha sonora gerados em uma única passagem com sincronização labial automática. Suporta inglês, chinês, japonês, coreano e espanhol.
Áudio integrado, não adicionado.
Storyboard multicena
Defina até 6 cenas individuais, cada uma com seu próprio prompt, duração e movimento de câmera. O3 mantém a coerência visual em todos os cortes automaticamente.
Dirija uma sequência, não apenas um clipe.
Pensamento visual sequencial
O mecanismo de raciocínio integrado do O3 garante que a lógica das cenas permaneça coerente — os personagens interagem naturalmente, a física se comporta corretamente e as transições entre planos fazem sentido visualmente.
O modelo pensa antes de renderizar.
Movimento com precisão física
A simulação física avançada lida com gravidade, equilíbrio, deformação, colisão e inércia. Objetos e personagens se movem com peso e impulso realistas do mundo real.
Movimento que parece real.
Diálogo multilingue
Gere fala em mais de 5 idiomas com opções de sotaque, incluindo inglês americano, britânico e indiano. Crie cenas com múltiplos personagens em que cada um fala um idioma diferente.
Histórias globais, vozes nativas.
Referência de elemento de vídeo
Além de referências de imagens estáticas — faça upload de clipes de vídeo para transferir padrões de movimento, estilos de atuação ou movimentos de câmera para sua geração, mantendo a consistência do personagem.
Use qualquer referência visual.
Controle flexível de duração
Gere de 3 a 15 segundos por clipe com precisão quadro a quadro. Combine com o modo de múltiplas tomadas para sequências estendidas que mantêm a qualidade em todo o percurso.
De clipes de 3 segundos a histórias de 15 segundos.
Onde os criadores escolhem Kling O3
Seis fluxos de trabalho onde a geração baseada em referências e a consistência de personagem fazem a diferença.
Cineastas
Séries com personagens recorrentes
Mantenha a aparência do protagonista em todos os episódios. Gere pré-visualizações com atores, figurino e cenários consistentes sem refilmagens.
Mídias sociais
Série de personagens da marca
Crie uma mascote ou avatar de influenciador reconhecível que se mantenha idêntico em cada postagem, reel e story.
Publicidade
Campanhas publicitárias com múltiplas variantes
Troque fundos, produtos e texto enquanto mantém o rosto e o traje do seu porta-voz perfeitamente consistentes em mais de 50 variantes.
Estúdios de jogos
Cenas cinematográficas a partir de assets do jogo
Referencie modelos de personagens e ambientes do jogo para gerar cinemáticas e trailers consistentes sem renderização 3D.
Estúdios de conteúdo
Conteúdo episódico em grande escala
Produza episódios diários ou semanais com personagens e ambientes travados. O sistema de referência do O3 elimina erros de continuidade.
Educação
Avatares de instrutor consistentes
Crie um instrutor de IA com a mesma aparência e voz em toda uma série de cursos, incluindo narração nativa.
Criadores escolhem Kling O3
pela consistência.
“A trava de personagem do O3 mudou completamente nosso fluxo de trabalho. Produzimos uma série de 10 episódios com o mesmo protagonista — fim dos pesadelos de continuidade entre renders.”
“A geração nativa de áudio nos economiza horas por vídeo. Sincronização labial, som ambiente e diálogo são gerados em um único render — nossa equipe de pós-produção mal precisa mexer no áudio agora.”
“Produzimos 60 variantes de anúncio por dia com a mesma embaixadora da marca. O3 mantém o rosto, a roupa e os maneirismos dela inalterados enquanto trocamos todos os outros elementos.”
“O storyboard multishot com 6 cortes por render me permite dirigir uma cena completa em uma única geração. É o mais próximo de ter um cinegrafista de IA.”
Comece a criar com
Kling O3
Trave seus personagens, gere áudio nativo e dirija cenas com múltiplas tomadas — tudo a partir de um único modelo unificado.
Nenhum cartão de crédito necessário. Gerações gratuitas incluídas.
Tudo sobre
Kling O3
O Kling O3 (Video 3.0 Omni) amplia o V3 com o Reference-to-Video — você pode enviar imagens de personagens ou clipes de vídeo para manter a identidade entre diferentes gerações. O V3 é orientado por prompt; o O3 é orientado por referência. O O3 também oferece suporte a saída em maior resolução e possui geração de áudio otimizada.
Envie 1 a 4 imagens de referência de um personagem. O O3 cria uma incorporação de identidade que preserva o rosto, as roupas e as características em todos os takes e ângulos de câmera. Isso funciona com múltiplos personagens simultaneamente na mesma cena.
O O3 suporta até 6 clipes por geração, cada um com seu próprio prompt, duração (3–15 segundos) e movimento de câmera. O modelo mantém automaticamente a coerência visual em todos os cortes.
O3 gera fala em inglês, chinês, japonês, coreano e espanhol, com opções de sotaque incluindo inglês americano, britânico e indiano. Cenas de diálogo com múltiplos personagens podem apresentar idiomas diferentes por personagem.
Sim. O3 compartilha a mesma estrutura de API base que a V3 — basta alterar o ID do modelo. Parâmetros opcionais adicionais permitem que você passe imagens de referência e clipes de vídeo. Disponível através da API oficial da Kling e de provedores terceirizados.
O modo padrão gera em 720p, o modo Pro em 1080p. A duração varia de 3 a 15 segundos por geração. A qualidade ótima está na faixa de 5 a 10 segundos.
O3 gera áudio e vídeo em uma única passagem unificada, o que produz uma sincronização labial mais precisa do que as abordagens de pós-processamento. Os resultados são sólidos para a maioria dos casos de uso, com melhorias contínuas em cada atualização.
Sim. Os planos incluem licenciamento comercial para conteúdo gerado. Verifique o nível do seu workspace para limites de uso específicos e opções de suporte prioritário.
Ainda tem perguntas? Fale com nossa equipe