Kling O3: generación de video basada en referencias.Personajes que mantienen su consistencia.
Genera clips cinematográficos con bloqueo de identidad de personajes, audio nativo y guionización de múltiples tomas, todo desde un único modelo multimodal unificado.
Confiado por más de 100,000 creadores y estudios a nivel mundial
Kling O3 en acción
Narrativa con personajes consistentes, escenas de audio nativo y secuencias de múltiples tomas generadas a partir de imágenes de referencia y prompts de texto.




Kling O3 — el modelo Omni que bloquea
tus personajes en su lugar.
Kling O3 (Video 3.0 Omni) es la extensión impulsada por referencias de Kling 3.0. Sube hasta 4 imágenes de referencia de personajes, y el modelo construye una incrustación de identidad que persiste en todo tu video, incluso a través de cambios de cámara, cambios de iluminación y escenas con múltiples personajes.
A diferencia del texto-a-video estándar, O3 combina entradas de referencia con indicaciones de texto, generación de audio y razonamiento visual en cadena en un solo proceso unificado. Los estudios lo utilizan para la producción de series, contenido de marca y cualquier flujo de trabajo donde los personajes deben verse iguales toma tras toma.
Referencia a Video (Ref2V)
Sube imágenes o clips de video para fijar la identidad, la vestimenta y las características de los personajes en cada fotograma.
Audio nativo en un solo proceso
Diálogo, sonido ambiente y música generados simultáneamente con el video, sin necesidad de una cadena de posproducción de audio.
Razonamiento visual en cadena
El razonamiento de escenas integrado garantiza continuidad lógica entre tomas, acciones y entornos.
Hasta 6 tomas por generación
Define indicaciones, duraciones y movimientos de cámara separados para cada corte dentro de una sola generación.
Kling O3: de imágenes de referencia a
escenas finalizadas en minutos.
Tres pasos para generar video con personajes consistentes y audio sincronizado usando el motor multimodal unificado de Kling O3.
Sube referencias y compón
Arrastra 1–4 imágenes de referencia del personaje o un video de referencia. Añade tu indicación de texto describiendo la escena, movimiento de cámara e intención de audio. O3 crea incrustaciones de identidad automáticamente.
Usa fotos de referencia de frente y de perfil para una mejor fijación del personaje.
Genera con audio
O3 renderiza vídeo y audio sincronizado en un solo proceso. Elige una duración de 3–15 segundos, selecciona hasta 6 tomas y elige entre más de 5 idiomas para los diálogos. Vista previa de fotogramas antes del renderizado final.
Comienza con clips de 5–10 segundos para una calidad óptima y luego extiende.
Revisar y exportar
Reproduce tu clip con audio nativo. Edita tomas individuales, cambia referencias o ajusta indicaciones sin regenerar toda la secuencia. Exporta en MP4/WebM hasta 1080p.
Usa la exportación por lotes para renderizar toda una serie de storyboard de una vez.
Kling O3: todo lo que V3 hace,
además de memoria de personaje.
Kling O3 añade generación basada en referencias sobre el motor cinematográfico de Kling 3.0: las características clave que lo convierten en el modelo Omni.
Bloqueo de identidad del personaje
Sube hasta 4 imágenes de referencia por personaje. O3 crea embeddings persistentes que mantienen el rostro, la ropa y las características en todos los planos y ángulos de cámara, incluso con múltiples personajes en escena.
Tus personajes nunca se desvían.
Generación nativa de audio
Diálogo, sonidos ambientales y música de fondo generados en un solo paso con sincronización automática de labios. Admite inglés, chino, japonés, coreano y español.
Audio integrado, no añadido.
Guión gráfico de múltiples tomas
Define hasta 6 tomas individuales, cada una con su propio prompt, duración y movimiento de cámara. O3 mantiene la coherencia visual en todos los cortes automáticamente.
Dirige una secuencia completa, no solo un clip.
Razonamiento visual en cadena
El motor de razonamiento integrado de O3 garantiza que la lógica de la escena se mantenga coherente: los personajes interactúan naturalmente, la física se comporta correctamente y las transiciones entre planos tienen sentido visual.
El modelo piensa antes de renderizar.
Movimiento físicamente preciso
La simulación física avanzada gestiona la gravedad, el equilibrio, la deformación, las colisiones y la inercia. Los objetos y personajes se mueven con peso y momento realistas.
Movimiento que parece real.
Diálogo multilingüe
Genera voz en más de 5 idiomas con opciones de acento que incluyen inglés americano, británico e indio. Crea escenas con múltiples personajes donde cada persona habla un idioma diferente.
Historias globales, voces nativas.
Referencia de elementos de video
Más allá de referencias de imágenes estáticas — sube clips de video para transferir patrones de movimiento, estilos de actuación o movimientos de cámara en tu generación, manteniendo la consistencia del personaje.
Referencia cualquier elemento visual.
Control flexible de duración
Genera de 3 a 15 segundos por clip con precisión a nivel de fotograma. Combínalo con el modo multidisparo para secuencias extendidas que mantengan la calidad en todo momento.
De hooks de 3s a historias de 15s.
Donde los creadores eligen Kling O3
Seis flujos de trabajo donde la generación basada en referencias y la consistencia del personaje marcan la diferencia.
Cineastas
Series con personajes recurrentes
Mantén la apariencia del protagonista en todos los episodios. Genera previsualizaciones con actores, vestuario y escenarios consistentes sin necesidad de regrabaciones.
Redes sociales
Series de personajes de marca
Crea una mascota o avatar de influencer reconocible que se mantenga idéntico en cada publicación, reel e historia.
Publicidad
Campañas publicitarias multi-variante
Intercambia fondos, productos y textos mientras conservas el rostro y el atuendo del portavoz perfectamente consistentes en más de 50 variantes.
Estudios de videojuegos
Escenas cinemáticas a partir de assets
Referencia modelos de personajes y entornos del juego para generar cinemáticas y tráileres consistentes sin renderizado 3D.
Estudios de contenido
Contenido episódico a gran escala
Produce episodios diarios o semanales con personajes y entornos bloqueados. El sistema de referencia de O3 elimina los errores de continuidad.
Educación
Avatares de instructor consistentes
Crea un instructor IA que se vea y suene igual en toda una serie de cursos con narración de audio nativa.
Los creadores eligen Kling O3
por consistencia.
“El bloqueo de personajes de O3 cambió por completo nuestro flujo de trabajo. Producimos una serie de 10 episodios con el mismo protagonista: se acabaron las pesadillas de continuidad entre renders.”
“La generación de audio nativa nos ahorra horas por video. La sincronización labial, el sonido ambiente y los diálogos surgen de una única renderización; nuestro equipo de postproducción casi no toca el audio ahora.”
“Ejecutamos 60 variaciones de anuncios al día con la misma portavoz de marca. O3 mantiene su rostro, vestuario y manierismos bloqueados mientras intercambiamos cualquier otro elemento.”
“El guion gráfico multi-toma con 6 cortes por renderización me permite dirigir una escena completa en una sola generación. Es lo más parecido a tener un director de fotografía con IA.”
Empieza a crear con
Kling O3
Asegura tus personajes, genera audio nativo y dirige escenas con múltiples tomas, todo desde un único modelo unificado.
No se requiere tarjeta de crédito. Incluye generaciones gratuitas.
Todo sobre
Kling O3
Kling O3 (Video 3.0 Omni) amplía V3 con Reference-to-Video: puedes subir imágenes de personajes o clips de vídeo para bloquear la identidad a lo largo de las generaciones. V3 está guiado por prompts; O3 está guiado por referencias. O3 también admite salida de mayor resolución y ha optimizado la generación de audio.
Sube de 1 a 4 imágenes de referencia de un personaje. O3 construye un embedding de identidad que preserva el rostro, la ropa y las características en todos los planos y ángulos de cámara. Esto funciona con múltiples personajes simultáneamente en la misma escena.
O3 admite hasta 6 tomas por generación, cada una con su propio prompt, duración (3-15 segundos) y movimiento de cámara. El modelo mantiene la coherencia visual entre todos los planos de forma automática.
O3 genera voz en inglés, chino, japonés, coreano y español, con opciones de acento que incluyen inglés estadounidense, británico e indio. Las escenas de diálogo con múltiples personajes pueden presentar diferentes idiomas por personaje.
Sí. O3 comparte la misma estructura base de API que V3, solo cambia el ID del modelo. Parámetros opcionales adicionales permiten enviar imágenes de referencia y videoclips. Disponible a través de la API oficial de Kling y proveedores externos.
El modo Estándar genera a 720p, el modo Pro a 1080p. La duración por generación va de 3 a 15 segundos. La calidad óptima se encuentra en el rango de 5 a 10 segundos.
O3 genera audio y video en un proceso único unificado, lo que produce una sincronización labial más precisa que los enfoques de post-procesamiento. Los resultados son sólidos para la mayoría de los casos de uso, con mejoras continuas en cada actualización.
Sí. Los planes incluyen licencia comercial para el contenido generado. Consulta el nivel de tu espacio de trabajo para ver los límites de uso específicos y las opciones de soporte prioritario.
¿Tienes más preguntas?Habla con nuestro equipo